﻿alimente Conectare și descărcare Dacă fiecare procedură este tradusă separat, așa cum se arată în Fig , ar trebui retradusă o singură procedură modificată, deși toate modulele obiect ar trebui reconectate Cu toate acestea, legarea este mult mai rapidă decât traducerea, așa că atunci când rafinați un program, ambii pași (traducere și legare) sunt rapidi Acest lucru este deosebit de important pentru programele care conțin sute sau mii de module Sarcini de linker La începutul primei treceri de asamblare, contorul de adrese de instrucțiune este setat la Acest pas este echivalent cu presupunerea că modulul obiect va fi în locația în timpul execuției Figura prezintă module obiect pregătite pentru o mașină tipică În acest exemplu, fiecare modul începe cu o instrucțiune de ramificare BRANCH la o instrucțiune MOVE în același modul Orez Fiecare modul are propriul său spațiu de adrese, începând cu adresa zero Pentru a putea rula programul, linkerul plasează module obiect în memoria principală, formând o imagine a codului binar executabil (Fig , a) Scopul este de a crea o imagine exactă a spațiului virtual de adrese Capitolul Nivel de asamblare program executabil în interiorul linkerului și plasați toate modulele obiect la adresele corespunzătoare Dacă nu există suficientă memorie fizică sau virtuală pentru a forma imaginea, se poate folosi un fișier de disc De obicei, o mică secțiune de memorie care începe de la adresa zero este utilizată pentru vectorii de întrerupere, interacțiunea cu sistemul de operare, detectarea pointerilor neinițializați și alte scopuri, astfel încât, de regulă, programele nu încep la adresa zero, ci mai sus În exemplul nostru, programele încep la adresa Uită-te la fig , a Deși programul a fost deja încărcat în imaginea binară executabilă, nu este încă gata de rulare Să vedem ce se întâmplă dacă programul începe cu instrucțiunea de la începutul modulului A Programul nu va sări la instrucțiunea MOVE deoarece această instrucțiune este situată în locația De fapt, toate instrucțiunile de acces la memorie nu vor fi executate pentru aceeași motiv Aici intervine problema realocării memoriei, deoarece fiecare modul obiect din figură ocupă propriul spațiu de adrese Pe o mașină cu un spațiu de adrese segmentat (cum ar fi Pentium ), fiecare modul de obiect ar putea avea, teoretic, propriul spațiu de adrese dacă este plasat într-un segment separat Cu toate acestea, pentru Pentium , numai OS/ acceptă această structură Toate versiunile de Windows și UNIX acceptă același spațiu de adrese liniar, astfel încât toate modulele obiect trebuie să fie combinate în același spațiu de adrese Mai mult, procedura de apelare a comenzilor din Fig , dar nu va funcționa deloc La locația , programatorul intenționează să apeleze modulul obiect B, dar pentru că fiecare procedură este tradusă separat, asamblatorul nu poate determina ce adresă să insereze în instrucțiunea CALL B deoarece adresa modulului obiect B nu este cunoscută înainte de conectare Această problemă se numește problema de referință externă Ambele probleme sunt rezolvate folosind linker-ul Linker-ul combină spațiile de adrese ale modulelor obiect individuale într-un singur spațiu de adrese liniar Pentru aceasta se fac urmatorii pasi: Linkerul construiește un tabel cu module de obiecte și dimensiunile acestora Pe baza acestui tabel, atribuie adrese de pornire fiecărui modul obiect Linker-ul găsește toate instrucțiunile care accesează memoria și adaugă fiecăruia dintre ele o constantă de realocare egală cu adresa de pornire a acelui modul Trebuie remarcat faptul că metoda de organizare a segmentelor a fost folosită numai în prima versiune de OS / , care era pe biți și a fost dezvoltată pentru microprocesorul Prin urmare, nu pare chiar corect să atribuiți acest sistem Pentium Din , toate versiunile ulterioare de OS/ au fost pe de biți și, ca și alte sisteme de operare moderne, nu acceptă sharding, ci folosesc doar mecanismul de paginare - Notă științific ed Conectare și descărcare MUTAȚI S LA X SUCURSALA LA Apelați RTOX-UL MEU SUCURSALA LA Apelați Q MEU LA X SUCURSALA LA SUNĂ PTOX-ul meu SUCURSALA LA A Modulul obiect D Modulul obiect C Modulul obiect B Modulul obiect A MUTAȚI S LA X SUCURSALA LA Sunați la RTOX-UL MEU SUCURSALA LA Sunați la Q MEU LA X SUCURSALA LA eu , SUNAȚI LA MĂ MUSC RTO X i SUCURSALA LA eu i b Modulul obiect A Modulul obiect C Modulul obiect B Obiectul l modulul D Orez Module obiect după plasarea în imaginea binară, dar înainte de realocarea memoriei și legarea (a); aceleași module obiect după conectarea și realocarea memoriei (b) Rezultatul este un binar executabil care poate fi rulat Capitolul Nivel de asamblare Linker-ul găsește toate instrucțiunile care apelează proceduri și inserează adresele acestor proceduri în ele Tabelul corespunde tabelului modulelor obiect construite la prima etapă, prezentată în fig Acesta oferă numele, lungimea și adresa de pornire a fiecărui modul Pe fig Figura - b arată cum arată spațiul de adrese după ce linkerul a terminat de rulat Tabelul Numele, lungimea și adresa de început ale fiecărui modul din fig Lungimea modulului Adresa de pornire A B C D Structura modulului obiect Modulele obiect constau de obicei din șase părți: Identificare Tabelul punctelor de intrare Tabel de legături externe Comenzi și constante ale mașinii Redistribuirea vocabularului Sfârșitul modulului Prima parte conține numele modulului, unele informații de care are nevoie linkerul (cum ar fi lungimea diferitelor părți ale modulului) și uneori data asamblarii A doua parte a unui modul obiect este lista de simboluri definite în modul, împreună cu valorile acestora Aceste simboluri pot fi accesate de alte module De exemplu, dacă modulul constă din procedura bigbug, atunci elementul tabelului va conține șirul de caractere "bigbug" cu adresa corespunzătoare Un programator de limbaj de asamblare folosește directiva PUBLIC pentru a specifica ce nume simbolice sunt considerate puncte de intrare A treia parte a unui modul obiect constă dintr-o listă de nume simbolice care sunt utilizate în acest modul și sunt definite în alte module Există, de asemenea, o altă listă aici care arată exact ce nume simbolice sunt folosite de către ce instrucțiuni de mașină A doua listă este necesară pentru ca linkerul să poată introduce adresele corecte în comenzile care folosesc nume externe O procedură poate apela alte proceduri traduse independent prin declararea numelor procedurilor apelate ca fiind externe Un programator în limbaj de asamblare folosește directiva EXTERN pentru a specifica ce simboluri să declare ca externe Pe unele computere, punctele de intrare și xref-urile sunt combinate în același tabel Conectare și descărcare A patra parte a modulului obiect este instrucțiunile și constantele mașinii Aceasta este singura parte a modulului obiect care este încărcată în memorie pentru execuție Cele cinci părți rămase sunt folosite de linker și apoi aruncate înainte ca programul să înceapă chiar să se execute A cincea parte a modulului obiect este dicționarul de realocare a memoriei O constantă de realocare trebuie adăugată la instrucțiunile care conțin adrese de memorie (vezi Figura ) Linker-ul în sine nu poate determina care cuvinte din partea conțin instrucțiuni de mașină și care sunt constante Prin urmare, acest tabel conține informații despre adresele care trebuie realocate Acesta poate fi un tabel de biți, în care fiecare bit are o adresă potențial remapată sau o listă explicită de adrese remapate A șasea parte conține o indicație a sfârșitului modulului și, uneori, o sumă de control pentru a determina erorile făcute în timpul citirii modulului și adresa de la care ar trebui să înceapă execuția Cele mai multe linkere necesită două treceri La prima trecere, linkerul citește toate modulele obiect și construiește un tabel cu nume și dimensiuni ale modulelor, precum și un tabel global de simboluri, care constă din toate punctele de intrare și referințele externe La a doua trecere, modulele sunt citite unul câte unul, realocate în memorie și asamblate Timp de legătură și realocare dinamică a memoriei Într-un sistem multiprogram, un program poate fi citit în memoria principală, rulat pentru un timp, scris pe disc și apoi citit înapoi în memoria principală pentru execuție Într-un sistem complex cu multe programe, este dificil să fii sigur că programul este citit în același loc în memorie de fiecare dată Pe fig Figura arată ce se întâmplă dacă un program deja alocat (vezi Figura b) este încărcat la adresa mai degrabă decât la adresa , acolo unde linkerul l-a plasat inițial Toate adresele de memorie se dovedesc a fi greșite, iar acest lucru se întâmplă în absența oricărei informații despre alocarea memoriei Chiar dacă aceste informații ar fi disponibile, ar fi o risipă să redistribuim toate adresele de fiecare dată când programul este încărcat Problema deplasării programelor deja legate și plasate în memorie este direct legată de momentul legării finale a numelor simbolice de adrese absolute ale memoriei fizice Programul conține nume simbolice pentru adresele de memorie (de exemplu, BR L) Momentul la care este determinată adresa din memoria principală corespunzătoare numelui L se numește timp de legare Există cel puțin șase timpi de legare: Când se scrie programul Când programul este difuzat Când programul se conectează, dar înainte de încărcare Capitolul Nivel de asamblare Când programul este încărcat Când este încărcat registrul de bază, care este folosit pentru adresare Când se execută o comandă care conține adresa necesară Dacă o instrucțiune care conține o adresă este remapată în memorie după ce a fost legată, acea adresă este invalidă (presupunând că obiectul referit este, de asemenea, mutat în memorie) Dacă compilatorul generează cod binar executabil, atunci legătura are loc în timpul traducerii, iar programul trebuie rulat de la adresa specificată de traducător Folosind metoda descrisă în subsecțiunea anterioară, numele simbolice sunt asociate cu adrese absolute în timpul conectării, motiv pentru care programele nu pot fi mutate după legare (vezi Figura ) Sunt două întrebări aici În primul rând, când sunt asociate numele simbolice cu adrese virtuale? În al doilea rând, când sunt asociate adresele virtuale cu adresele fizice? Numai după aceste două operații, procesul de legare poate fi considerat finalizat Când linker-ul îmbină spații de adrese separate ale modulelor obiect într-un singur spațiu de adrese liniar, acesta creează de fapt un spațiu de adrese virtual Remapările și legarea memoriei sunt necesare pentru a asocia nume simbolice cu adrese virtuale specifice Acest lucru este valabil indiferent dacă se utilizează sau nu memoria virtuală Să presupunem că spațiul de adrese prezentat în Fig , b, a fost paginat Este clar că adresele virtuale corespunzătoare denumirilor simbolice A, B, C D sunt deja definite, deși adresele lor fizice vor depinde de conținutul tabelului de pagini În realitate, legarea numelor simbolice de adrese virtuale are loc în codul binar executabil Orice mecanism care facilitează schimbarea mapării adreselor virtuale la adrese din memoria fizică principală va facilita mutarea unui program în memoria principală, chiar dacă acestea sunt deja asociate cu un spațiu de adrese virtuale Un astfel de mecanism este paginarea Dacă un program este mutat în memoria principală, trebuie schimbat doar tabelul de pagini, nu programul în sine Al doilea mecanism este utilizarea registrului de realocare a timpului de execuție Calculatorul CDC și succesorii săi conțineau un astfel de registru Pe mașinile care utilizează această tehnică de remapare a memoriei, registrul indică întotdeauna adresa fizică a începutului programului curent În hardware, acest registru este adăugat la toate adresele înainte ca acestea să fie alocate în memorie Întregul proces de realocare a memoriei este transparent pentru programele utilizatorului Programele utilizatorului nici măcar nu bănuiesc că memoria este realocata Dacă programul este mutat, sistemul de operare trebuie să actualizeze registrul de realocare Acest mecanism este mai puțin comun decât paginarea, deoarece întregul program trebuie mutat (dacă există registre separate de realocare pentru cod și date, ca, de exemplu, în procesorul Intel , atunci ambele părți ale programului vor fi obiecte mutate) Conectare și descărcare MUTAȚI S LA X SUCURSALA LA Sunați la MUTAȚI R LA X SUCURSALA LA Sunați la Q MEU LA X SUCURSALA LA Sunați la MUTAȚI RTO X SUCURSALA LA Modulul obiect D Modulul obiect C Modulul obiect B Modulul obiect A Orez Programul executabil din fig , b, deplasat în sus cu de adrese Multe comenzi accesează acum adresele de memorie greșite Al treilea mecanism poate fi utilizat în mașinile care implementează capacitatea de a accesa memorie în raport cu contorul de programe În aceste mașini, ori de câte ori un program este mutat în memoria principală, este suficient să se actualizeze Capitolul Nivel de asamblare numai contorul de programe Un program, ale cărui accesuri la memorie sunt fie asociate cu contorul de programe, fie sunt absolute (de exemplu, accesări la registrele dispozitivelor I/O prin adrese absolute), se numește independent de poziție O procedură independentă de poziție poate fi plasată oriunde în spațiul de adrese virtuale fără a fi necesară realocarea adreselor de memorie Legătura dinamică Strategia de legare despre care am discutat în subsecțiunea Sarcini de legătură are o caracteristică: toate procedurile cerute de program sunt legate înainte de începerea programului Totuși, dacă stabilim toate conexiunile înainte ca programul să înceapă să ruleze într-un computer cu memorie virtuală, atunci nu folosim toate posibilitățile memoriei virtuale Multe programe conțin proceduri care sunt apelate numai în anumite circumstanțe De exemplu, compilatoarele conțin proceduri pentru compilarea declarațiilor rar utilizate sau pentru remedierea erorilor rare O modalitate mai flexibilă de a lega procedurile compilate separat este de a lega fiecare procedură în momentul în care este apelată pentru prima dată Acest proces se numește legătură dinamică A fost folosit pentru prima dată în sistemul MULTICS Să ne uităm la exemple de legături dinamice pe mai multe sisteme Legături dinamice în MULTICS În sistemul MULTICS, fiecare program este asociat cu un segment, așa-numitul segment de legătură Conține un bloc de informații pentru fiecare procedură care poate fi apelată Acest bloc începe cu un cuvânt rezervat pentru adresa virtuală a procedurii, urmat de numele procedurii, care este stocat ca șir de caractere În legarea dinamică, apelurile de procedură în limba gazdă sunt traduse în instrucțiuni care, prin adresare indirectă, se referă la primul cuvânt al blocului corespunzător, așa cum se arată în Fig , a Compilatorul completează acest cuvânt fie cu o adresă invalidă, fie cu un set special de biți care provoacă o excepție Când este apelată o procedură dintr-un alt segment, o încercare de a se referi indirect la un cuvânt invalid generează o excepție de linker Linkerul găsește apoi șirul de caractere din cuvântul care urmează adresei greșite și începe să caute în directorul utilizatorului procedura compilată cu numele găsit Această procedură primește apoi o adresă virtuală (de obicei în propriul segment), iar această adresă virtuală este suprascrisă cu adresa greșită, așa cum se arată în Figura - b Comanda care a provocat eroarea de legătură este apoi re-execută, permițând programului să continue unde era înainte de excepție Toate apelurile ulterioare la această procedură vor rula fără eroare, deoarece cuvântul anterior nevalid conține acum adresa virtuală corectă Prin urmare, cu legătura dinamică, linkerul este apelat numai atunci când procedura este apelată pentru prima dată Nu trebuie să-l suni din nou Conectare și descărcare b Orez Legătura dinamică: procedură EARTH înainte de apel (a); Procedura EARTH după apel și legătură (b) Legături dinamice în Windows Toate versiunile de Windows, inclusiv Windows NT, acceptă legătura dinamică Legătura dinamică utilizează un format de fișier special numit DLL (Dynamic Link Library) Capitolul Nivel de asamblare legătură dinamică) Bibliotecile de legături dinamice pot conține proceduri, date sau ambele De obicei, acestea sunt utilizate pentru a permite două sau mai multe procese să partajeze procedurile și datele unei biblioteci Majoritatea fișierelor DD L au extensia dll, dar există și alte extensii, precum drv (pentru bibliotecile de drivere - biblioteci de drivere) și fon (pentru bibliotecile de fonturi - biblioteci de fonturi) Cea mai comună formă de DLL este o bibliotecă, care constă dintr-un set de proceduri care pot fi încărcate în memorie și accesate de mai multe procese în același timp Figura prezintă două procese care partajează un fișier DLL care conține proceduri, L, B, C și D Programul utilizează procedura L; programul este procedura C, deși ar putea foarte bine să folosească aceeași procedură Utilizator Utilizator procesul procesul Orez Două procese au același DLL Fișierul DLL este creat de linker dintr-un grup de fișiere de intrare Construirea unui DDL este similară cu construirea unui binar executabil, doar când DLL-ul este construit, un steag special este transmis linker-ului pentru a indica faptul că DLL-ul este necesar Fișierele DLL sunt de obicei construite dintr-un set de rutine de bibliotecă de care pot avea nevoie mai multe procese Exemple comune de DLL-uri sunt interfețele pentru biblioteca de apeluri de sistem Windows și bibliotecile grafice mari Folosind fișiere DDL, economisim spațiu în memorie și pe disc Dacă o anumită bibliotecă ar fi legată static la fiecare program care a folosit-o, acea bibliotecă ar trebui inclusă în toate binarele executabile din memorie și pe disc, ceea ce nu este economic Și dacă există un fișier DLL, va exista o singură bibliotecă pe disc și în memorie Conectare și descărcare În plus, această abordare facilitează actualizarea rutinelor bibliotecii, chiar și după ce programele care le folosesc au fost compilate și legate Pentru pachetele software comerciale în care programul de intrare nu este în mod normal disponibil pentru utilizatori, prezența fișierelor DLL înseamnă că furnizorul de software poate remedia erorile software detectate prin simpla distribuire de noi fișiere DLL pe Internet, fără a necesita modificări ale fișierelor binare ale principalelor programe Principala diferență dintre un DLL și un program binar executabil este că un fișier DLL nu poate rula și rula singur (deoarece nu are un program principal) De asemenea, conține informații complet diferite în antet În plus, fișierul DLL are mai multe proceduri suplimentare care nu au legătură cu procedurile din bibliotecă De exemplu, există o procedură care este apelată automat ori de câte ori un proces nou se conectează la un fișier DLL și o altă procedură care este apelată automat ori de câte ori un proces se leagă la un fișier DLL Aceste rutine pot aloca și dezaloca memorie sau gestiona alte resurse de care DLL-ul are nevoie Un program se poate conecta la un fișier DLL în două moduri: prin legare implicită sau explicită Cu legături implicite, programul utilizatorului este legat static la un fișier special, așa-numita bibliotecă de import O bibliotecă de import este creată de un utilitar special conceput pentru a extrage anumite informații dintr-un fișier DLL Biblioteca de import oferă o legătură prin care programul utilizatorului poate accesa fișierul DLL Un program utilizator poate fi conectat la mai multe biblioteci de import Când un program care este legat implicit este încărcat în memorie pentru execuție, Windows verifică ce DLL-uri are nevoie și dacă acestea sunt toate în memorie Acele fișiere care nu sunt încă în memorie sunt încărcate acolo imediat (dar nu neapărat în întregime, deoarece sunt paginate) Apoi, anumite modificări sunt aduse structurilor de date din bibliotecile de import, astfel încât să poată fi determinată locația procedurilor apelate (similar cu modificările ilustrate în Figura - ) De asemenea, ele trebuie mapate la spațiul de adrese virtuale al programului Din acest moment, programul utilizator poate fi rulat deoarece poate apela proceduri din fișierele DLL ca și cum ar fi legate static la acesta O alternativă la legarea implicită este legătura explicită Legătura explicită nu necesită nicio bibliotecă de import sau încărcarea simultană a fișierelor DLL cu programul utilizatorului În schimb, programul utilizator efectuează un apel explicit în timpul execuției pentru a se conecta la DLL și apoi face apeluri suplimentare pentru a obține adresele procedurilor de care are nevoie Când toate acestea sunt făcute, programul face un apel final pentru a rupe legătura cu fișierul DLL Când ultimul proces întrerupe legătura cu un fișier DLL, acel fișier poate fi descărcat din memorie Capitolul Nivel de asamblare Este important să înțelegeți că o procedură dintr-un fișier DLL nu are caracteristici distinctive (cum ar fi procese sau fire de execuție) Se rulează pe firul programului apelant și folosește stiva programului apelant pentru variabilele locale Poate conține date statice specifice procesului (precum și date generale), dar altfel funcționează ca o procedură legată static Singura diferență semnificativă este modul în care este stabilită conexiunea Legături dinamice în UNIX UNIX utilizează biblioteci partajate care sunt în esență similare cu DLL-urile Windows La fel ca un fișier DLL, o bibliotecă de acces partajat este un fișier de arhivă care conține mai multe proceduri sau module de date care sunt prezente în memorie în timp ce un program rulează și poate fi asociat cu mai multe procese în același timp Biblioteca standard C și majoritatea programelor de rețea sunt biblioteci partajate UNIX acceptă numai legături implicite, astfel încât biblioteca de acces partajat constă din două părți: biblioteca gazdă, care este legată static la executabil, și biblioteca țintă, care este apelată în timpul execuției În ciuda unor diferențe în detaliu, conceptul este în esență același cu conceptul DLL Rezumatul capitolului Deși majoritatea programelor pot și ar trebui să fie scrise în limbaje de nivel înalt, există situații în care limbajul de asamblare trebuie folosit, cel puțin parțial Acestea pot include programe pentru calculatoare cu resurse insuficiente (de exemplu, procesoare pentru carduri inteligente, diverse dispozitive, dispozitive digitale portabile) Un program de asamblare este o reprezentare simbolică a unui program într-un anumit limbaj de mașină Este tradus în limbajul mașinii printr-un program special numit assembler Dacă o aplicație necesită performanțe ridicate, cel mai bine este să scrieți mai întâi programul într-un limbaj de nivel înalt, apoi prin teste pentru a determina care parte a programului durează cel mai mult timp pentru a fi executată și să rescrieți numai aceste părți ale programului în asamblator Practica arată că adesea o mică parte din întregul program ocupă cea mai mare parte a întregului timp de execuție al acestui program Mulți asamblatori oferă macrocomenzi care permit programatorilor să dea nume simbolice secvențe întregi de instrucțiuni De obicei, aceste macrocomenzi pot fi parametrizate Macro-urile sunt implementate folosind un algoritm de procesare literală a șirului Întrebări și sarcini Majoritatea asamblatorilor sunt cu două treceri În timpul primei treceri, este construit un tabel de simboluri pentru etichete, literale și identificatori declarați Numele simbolice pot fi fie nesortate și căutate prin scanare secvenţială de tabel, fie sortate mai întâi, apoi se aplică căutarea binară sau hashing Dacă numele simbolice nu trebuie să fie eliminate în timpul primei treceri, hashing este cea mai bună metodă Programul executabil este creat în timpul celei de-a doua treceri În ceea ce privește directivele (pseudo-comenzi), unele dintre ele sunt executate în timpul primei treceri, altele - în timpul celei de-a doua Programele care se asamblează independent unele de altele pot fi legate între ele pentru a forma un program binar executabil Această lucrare este realizată de linker Scopul său este realocarea memoriei și legarea numelor Legătura dinamică este o tehnică în care anumite proceduri nu sunt legate până când sunt apelate Bibliotecile partajate pe UNIX și bibliotecile cu linkuri dinamice (DLL) pe Windows folosesc tehnologia linkurilor dinamice Întrebări și sarcini Doar % din codul programului este responsabil pentru % din timpul de execuție al acestui program Comparați următoarele trei strategii în ceea ce privește programarea și timpul de execuție Să presupunem că este nevoie de de luni-om pentru a scrie un program C, dar că un program în limbaj de asamblare este de ori mai greu de scris, dar funcționează de ori mai eficient ) Întregul program este scris în C ) Întregul program este scris în assembler ) Programul este mai întâi scris în C, iar apoi % necesar din program este rescris în assembler Există anumite convenții pentru asamblatorii cu două treceri De asemenea, ar putea fi potrivite pentru următoarele compilatoare: ) Compilatorul generează module obiect în loc de codul de asamblare? ) Compilatorul generează limbaj de asamblare simbolic? Toți asamblatorii pentru procesoarele Intel primesc adresa țintă ca prim operand și adresa sursă ca al doilea Ce probleme ar putea apărea cu o abordare diferită? Următorul program poate fi asamblat în două treceri? EQU este o directivă care echivalează o etichetă cu o expresie dintr-un câmp operand A EQU B B EQU C CU EQU D DEQU Capitolul Nivel de asamblare O companie plănuiește să dezvolte un asamblator pentru un computer cu un cuvânt de de biți Pentru a reduce costurile, managerul de proiect a decis să limiteze lungimea numelor simbolice, astfel încât fiecare nume să poată fi stocat într-un singur cuvânt Managerul a anunțat că numele simbolice pot consta doar din litere, cu litera Q interzisă Care este lungimea maximă a unui nume simbolic? Descrieți schema dvs de codare Care este diferența dintre o comandă și o directivă? Cum este diferit contorul de adrese de comandă de contorul de comenzi? Există vreo diferență între ele? La urma urmei, ambii efectuează urmărirea următoarei comenzi din program Care va fi tabelul de simboluri (nume) după procesarea următoarelor instrucțiuni de asamblare Pentium (adresa este atribuită primei instrucțiuni)? EVEREST: POP BX ; ( octet) K : PUSH BP ; ( octet) WHITNEY: MOV BP SP ; ( octeți) MCKINLEY: PUSH X: ( octeți) FUJI: PUSH SI ; ( octet) KIBO: SUB SI, ; ( octeți) Vă puteți imagina circumstanțe în care o etichetă s-ar potrivi cu un cod operațional (de exemplu, ar putea fi folosită o instrucțiune MOV ca etichetă)? Argument Ce pași trebuie să faceți pentru căutarea binară pentru a găsi elementul "Berkeley" în următoarea listă: Ann Arbor, Berkeley, Cambridge, Eugene, Madison, New Haven, Palo Alto, Pasadena, Santa Cruz, Stony Brook, Westwood , Izvoarele Galbene Când calculați elementul din mijloc într-o listă cu un număr par de elemente, luați elementul care vine imediat după cel din mijloc I Este posibil să se utilizeze o căutare binară pe un tabel care conține un număr prim de elemente? Calculați codul hash pentru fiecare dintre următoarele nume simbolice Pentru a face acest lucru, adunați literele (a = , b = etc ) și luați rezultatul modulo dimensiunea tabelului hash Tabelul hash conține sloturi (de la la ) els, jan, jelle, maaike Fiecare nume simbolic formează o valoare hash unică? Dacă nu, cum poate fi rezolvat acest conflict? Metoda hash descrisă în textul capitolului vă permite să aranjați toate elementele care au același cod hash într-o listă legată O metodă alternativă este de a avea un singur tabel de n sloturi, cu spațiu în fiecare slot pentru o cheie și valoarea acesteia (sau pentru pointerii către acestea) Dacă algoritmul de hashing generează un slot care este deja plin, se face o a doua încercare folosind același algoritm de hashiro Întrebări și sarcini vanitate Dacă de data aceasta slotul este plin, algoritmul este aplicat din nou și așa mai departe Aceasta continuă până când este găsit un slot gol Dacă proporția de sloturi care sunt deja umplute este R, de câte încercări vor fi necesare în medie pentru a introduce un nou simbol în tabel? Probabil cândva în viitor va fi posibil să puneți mii de procesoare identice pe un singur cip, fiecare dintre ele conține mai multe cuvinte de memorie locală Dacă toate procesoarele pot citi și scrie trei registre comune, atunci cum se implementează memoria asociativă? Pentium are o arhitectură segmentată Segmentele sunt independente Asamblatorul pentru această mașină ar putea conține o directivă SEG N care pune codul și datele ulterioare în segmentul N Ar afecta o astfel de schemă contorul de adrese de instrucțiuni? Programele sunt adesea legate de numeroase DLL-uri Nu ar fi mai eficient să puneți toate procedurile într-un fișier DLL mare și apoi să îl conectați? Este posibil să mapați un fișier DLL la spațiile de adrese virtuale ale două procese cu adrese virtuale diferite? Dacă da, care sunt problemele? Pot fi rezolvate? Dacă nu, ce se poate face pentru a le elimina? Să descriem una dintre metodele de legare (legare statică) Înainte de a scana biblioteca, linkerul face o listă de proceduri necesare, adică nume care sunt definite ca EXTERN în modulele care sunt legate Linkerul parcurge apoi întreaga bibliotecă unul câte unul, extragând fiecare procedură care se află în lista de nume dorite Va funcționa o astfel de schemă? Dacă nu, de ce nu și cum se poate remedia? Poate fi folosit un registru ca parametru real într-un apel macro? Dar o constantă? Dacă da, de ce? Dacă nu, de ce nu? Trebuie să implementați un macro-asamblator Din motive estetice, șeful tău a decis că definițiile macro nu ar trebui să precedă apelurile macro Cum va afecta această decizie implementarea? Gândiți-vă cum puteți pune macro-asamblatorul într-o buclă infinită Linkerul citește module de , , , și respectiv de cuvinte Dacă sunt încărcate în această ordine, atunci care sunt constantele de realocare a memoriei? Scrieți un modul de tabel de simboluri format din două proceduri: introducere (simbol, vaiii) și căutare (simbol, vaiii) Primul introduce noi nume simbolice în tabel, iar al doilea le caută în tabel Utilizați o opțiune de hashing Capitolul Nivel de asamblare Scrieți un asamblator simplu pentru computerul Mic- , despre care am discutat în capitolul Pe lângă operarea cu instrucțiunile mașinii, oferiți capacitatea de a atribui constante numelor simbolice în timpul asamblarii, precum și capacitatea de a asambla o constantă în un cuvânt de mașină Adăugați macrocomenzi la asamblatorul pe care ar fi trebuit să le scrieți în sarcina anterioară Capitolul Arhitecturi de computere paralele Viteza computerelor este din ce în ce mai rapidă, dar cerințele impuse acestora sunt în continuă creștere Astronomii încearcă să reproducă întreaga istorie a universului din momentul Big Bang până în zilele noastre Farmacistii ar dori sa dezvolte noi medicamente folosind computere fara a sacrifica legiuni de sobolani Proiectanții de aeronave ar putea obține rezultate mai bune dacă, în loc să construiască tuneluri de vânt uriașe, și-ar modela proiectele pe un computer Pe scurt, oricât de puternice sunt computerele, capacitățile lor nu vor fi niciodată suficiente pentru a rezolva multe probleme nebanale (în special științifice, tehnice și industriale) Deși frecvența ceasului crește constant, viteza de comutare nu poate fi mărită la infinit Principala problemă rămâne viteza luminii - este imposibil să faci protonii și electronii să se miște mai repede Datorită disipării mari a căldurii, computerele s-au transformat în aparate de aer condiționat În cele din urmă, pe măsură ce tranzistoarele devin tot mai mici, în cele din urmă va veni un moment în care fiecare tranzistor va fi format din mai mulți atomi, astfel încât legile mecanicii cuantice (cum ar fi principiul incertitudinii lui Heisenberg) pot deveni o problemă majoră Drept urmare, pentru a putea rezolva probleme mai complexe, dezvoltatorii au apelat la calculatoare paralele (denumite în continuare computere paralele) Este imposibil să construiești un computer cu un procesor și un timp de ciclu de , ns, dar este posibil să construiești un computer cu de procesoare, fiecare cu un timp de ciclu de ns Și deși viteza fiecărui procesor în al doilea caz este evident scăzută, teoretic ar trebui să obținem performanța necesară Paralelismul poate fi introdus la diferite niveluri La cel mai de jos nivel, poate fi implementat într-un procesor prin pipelining și o arhitectură superscalară cu mai multe blocuri funcționale Paralelismul ascuns poate fi realizat prin prelungirea semnificativă a cuvintelor din comenzi Prin funcții suplimentare, puteți "învăța" procesorul să proceseze mai multe fire de execuție de program în același timp În cele din urmă, puteți instala mai multe procesoare pe același cip Cu toate acestea, toate aceste tehnici luate împreună pot îmbunătăți performanța de maximum ori în comparație cu soluțiile secvenţiale clasice La nivelul următor, este posibil să se introducă în sistem plăci CPU externe cu capacități de calcul îmbunătățite De obicei, procesoarele plug-in implementează funcții speciale, cum ar fi procesarea pachetelor de rețea, procesarea media, criptografia etc Capitolul Arhitecturi de calculatoare paralele Performanța aplicațiilor specializate datorită acestor funcții poate fi mărită de - ori Pentru a îmbunătăți performanța cu un factor de , sau , mai multe procesoare trebuie reunite și interacționate eficient Acest principiu este implementat sub forma unor sisteme mari multiprocesoare și multicalculatoare (calculatoare cluster) Desigur, combinarea a mii de procesoare într-un singur sistem creează noi probleme care trebuie rezolvate În cele din urmă, recent a devenit posibilă integrarea unor organizații întregi prin intermediul internetului Ca rezultat, se formează grile sau rețele de calcul distribuite slab cuplate Astfel de sisteme abia încep să se dezvolte, dar potențialul lor este foarte mare Când două procesoare sau elemente de procesare sunt în apropiere și fac schimb de cantități mari de date cu întârzieri reduse, ele sunt numite strâns cuplate (strâns cuplate) În consecință, atunci când două procesoare sau elemente de procesare sunt situate departe unul de celălalt și fac schimb de cantități mici de date cu întârzieri mari, ele sunt numite cuplate liber În acest capitol, vom discuta principiile de proiectare pentru aceste forme de paralelism și vom analiza câteva exemple Începând cu sistemele puternic cuplate, care se caracterizează prin paralelism intraprocesor, vom trece treptat la sistemele slab cuplate și, în partea finală a capitolului, vom vorbi despre sisteme de calcul distribuite O gamă aproximativă de subiecte luate în considerare este ilustrată în Fig coprocesor Procesor principal Sisteme puternic cuplate Sisteme slab cuplate a B C D E Orez Paralelismul intraprocesor (a); coprocesor (b); multiprocesor (in); multi computer (g); sistem de calcul distribuit slab cuplat (e) Concurența este în mod constant un subiect fierbinte de discuție, iar acest capitol este neobișnuit de plin de referințe, mai ales la lucrări recente pe această temă Referințe suplimentare la lucrările introductive pot fi găsite în secțiunea relevantă a capitolului Paralelism în CPU Paralelism în CPU O modalitate evidentă de a crește performanța unui cip este de a-l face să efectueze mai multe operațiuni pe unitatea de timp În această secțiune, ne vom uita la unele dintre tehnicile de îmbunătățire a vitezei de paralelism la nivel de cip, cum ar fi paralelismul la nivel de instrucțiuni, multithreading și procesoare multiple pe un cip Toate aceste metode, deși diferite unele de altele, ajută la rezolvarea problemei într-o măsură sau alta Ele sunt legate de principiul de bază - "comprimarea" operațiilor în timp Paralelism la nivel de instruire Paralelismul de nivel scăzut se realizează, în special, prin apelarea mai multor instrucțiuni într-un ciclu de ceas Procesoarele care implementează acest principiu se împart în două categorii: superscalare și VLIW Ambele au fost deja menționate în capitolele anterioare, dar acum este util să repetam acest material Schema procesorului superscalar este prezentată în fig În cele mai comune configurații, o instrucțiune trebuie să fie gata pentru execuție la un anumit punct al conductei Procesoarele superscalare sunt capabile să apeleze mai multe instrucțiuni într-un singur ciclu de ceas Numărul de instrucțiuni efectiv apelate depinde atât de designul procesorului, cât și de situația actuală Limitările hardware dictează numărul maxim de comenzi care pot fi apelate în același timp - de obicei de la două la șase În plus, dacă o instrucțiune necesită un bloc funcțional indisponibil sau rezultatul unei alte instrucțiuni care nu a fost încă primită, o astfel de instrucțiune nu va fi apelată chiar dacă este posibil fizic Un alt tip de paralelism la nivel de instrucțiune este implementat în procesoarele cu un cuvânt de instrucțiune foarte lung (Very Long Instruction Word, VLIW) În implementarea lor originală, sistemele VLIW prezentau într-adevăr cuvinte lungi cu instrucțiuni care accesau mai multe blocuri funcționale De exemplu, luați în considerare transportorul prezentat în Fig , a Include cinci blocuri funcționale și este capabil să execute simultan două operații întregi, o operație în virgulă mobilă, o instrucțiune de încărcare și o instrucțiune de salvare O instrucțiune a acestui sistem VLIW conține cinci opcode și cinci perechi de operanzi - un cod și o pereche pentru fiecare bloc funcțional Ținând cont de faptul că codul de operare are biți, registrul - biți, iar celula de memorie - de biți, lungimea totală a comenzii poate ajunge la de biți, ceea ce, vedeți, este mult Cu toate acestea, această decizie a fost considerată nereușită Cert este că nu toate comenzile au putut accesa blocurile funcționale corespunzătoare, ca urmare, operațiunile goale fără sens au apărut din abundență (Fig , b) În sistemele moderne VLIW, ar trebui furnizat un mecanism pentru marcarea pachetelor de comenzi, de exemplu, bitul "terminare a pachetului" poate fi utilizat pentru aceasta (Fig , c) Procesorul poate selecta și rula întregul pachet Sarcina de a pregăti pachete de comenzi care pot fi executate împreună este rezolvată de compilator Capitolul Arhitecturi de calculatoare paralele Operare gol -L- -L- I L- IIF-S I-FLS I-FL- FS -L- -Îlfs b Comanda VLIW IIFS Eu FLS IIFS Marcator de sfârșit de legare LFS Pachet V Orez Conducta procesorului (a); secvența de comenzi VLIW (b); flux de comandă cu pachete marcate (c) De fapt, în sistemele VLIW, soluția la problema compatibilității comenzilor este transferată din timpul de execuție în etapa de compilare Ca rezultat, hardware-ul este simplificat și mai ieftin În plus, deoarece nu există constrângeri de timp dificile în funcționarea compilatorului, lanțurile de comandă sunt formate mai semnificativ decât dacă s-ar întâmpla în timpul execuției Din păcate, este foarte greu de pus în practică o astfel de transformare radicală a arhitecturii procesorului, ceea ce este confirmat de răspândirea mai mult decât moderată a procesorului Itanium Este demn de remarcat faptul că paralelismul la nivel de instrucție nu este singura formă posibilă de paralelism de nivel scăzut Există și paralelism la nivel de memorie, care presupune executarea simultană a mai multor operații în memorie [ ] Paralelism în CPU Procesor TriMedia VLIW În capitolul , folosind procesorul Itanium ca exemplu, am întâlnit deja arhitectura VLIW Acum haideți să facem cunoștință cu un alt procesor VLIW - TriMedia produs de Philips TriMedia este un procesor încorporat pentru imagini, dispozitive audio și video precum playere CD, DVD și MP , recordere CD și DVD, televizoare interactive, camere digitale, camere video etc Având în vedere specializarea, nu este nimic surprinzător în numeroasele diferențe dintre TriMedia și Itanium - un procesor de uz general pentru servere de înaltă performanță O comandă TriMedia poate include până la cinci operațiuni În condiții complet optime, o instrucțiune este rulată pe ciclu de ceas și sunt selectate cinci operații Viteza nominală de ceas a procesorului este de sau MHz, dar din moment ce pot fi efectuate până la cinci operații într-un ciclu, viteza reală este de cinci ori mai mare În prezentarea ulterioară, vom trece de la caracteristicile implementării procesorului TM Alte versiuni de TriMedia au o serie de diferențe minore Comanda standard TriMedia este prezentată în fig Instrucțiunile variază în natură, de la instrucțiuni obișnuite cu numere întregi de , și de biți la instrucțiuni în virgulă mobilă IEEE și instrucțiuni de procesare media paralelă Execuția a cinci operații pe ciclu și disponibilitatea comenzilor pentru procesarea paralelă a datelor multimedia permit procesorului TriMedia să decodeze programatic streaming video digital provenit de la o cameră video, păstrând dimensiunea și rata de cadre originale Slot Slot Schimb Slot Slot Funcționare în slot Salvare la încărcare media Echipă Orez Comanda TriMedia standard cu cinci operații TriMedia folosește memoria organizată pe octeți și mapează registrele I/O cu spațiul de memorie Jumătate de cuvinte ( biți) și cuvinte întregi ( de biți) sunt aliniate pe granițele naturale Ordinea octetilor poate fi mare sau mare, în funcție de bitul cuvântului de stare a programului setat de sistemul de operare Acest bit definește mecanismul de transfer de date pentru operațiunile de încărcare și stocare între memorie și registre Procesorul oferă un cache asociat cu căi partajat cu aceeași lungime de linie ( de octeți) în memoria cache de instrucțiuni și date Capacitatea cache-ului de instrucțiuni este de KB; capacitate cache de date - KB Există de registre universale pe de biți Valorile registrelor R și R sunt egale cu zero și, respectiv, unu hardware Restul de de registre sunt echivalente din punct de vedere funcțional și pot fi utilizate în orice scop În plus, sunt furnizate patru registre specializate pe de biți: Capitolul Arhitecturi de calculatoare paralele un numărător de programe, un registru de cuvinte de stare a programului și două registre legate de întreruperi În cele din urmă, un registru de de biți numără numărul de cicluri de procesor de la ultima resetare La o frecvență de ceas de MHz, ciclul complet al contorului este de de ani Procesorul TM are blocuri funcționale concepute pentru a efectua operații aritmetice, logice și de control (există și un bloc de control cache, dar nu îl vom lua în considerare) Toate sunt enumerate în tabel Primele două coloane oferă numele blocului și o scurtă descriere a funcțiilor pe care acesta le îndeplinește A treia coloană indică numărul de copii hardware ale blocului A patra coloană conține valoarea așteptării (mai precis, numărul de cicluri) până la finalizarea operației În acest context, este util să rețineți că toate blocurile funcționale, cu excepția blocurilor rădăcină pătrată și diviziune în virgulă mobilă, sunt canalizate Deși așteptarea vă spune cât timp trebuie să așteptați înainte de a finaliza operația, nu trebuie să uitați că în fiecare nou ciclu puteți începe noi operațiuni Astfel, fiecare dintre cele trei comenzi consecutive poate conține două operații de încărcare, ceea ce înseamnă că șase operațiuni de încărcare pot fi simultan în diferite etape de execuție Tabelul Blocuri funcționale ale TM cu indicarea numărului lor, a întârzierii și a corespondenței cu sloturile de comandă Descriere bloc # Așteptați Operații cu constante Operații cu adresare directă Da Da Da Da Da Integer ALU -bit Aritmetică și logică Da Da Da Da Da Schimbări Schimbări pe mai mulți biți Da Da Da Da Da Încărcarea și salvarea accesărilor în memorie Da Da Înmulțirea întregului și în virgulă mobilă Înmulțirea întregului și în virgulă mobilă pe de biți Da Da ALU în virgulă mobilă Aritmetică în virgulă mobilă Da Da Comparaţie în virgulă mobilă Operaţii de comparare în virgulă mobilă Da Rădăcina pătrată și împărțirea numerelor în virgulă mobilă Împărțirea și rădăcina pătrată a numerelor în virgulă mobilă Da Paralelism în CPU Descriere bloc # Așteptați Controlul fluxului ramurilor Da Da Da DSP ALU Aritmetică multimedia (două cuvinte de biți sau patru de biți) Da Da Da Multiplicator pentru procesarea semnalului digital Multiplicarea datelor multimedia (două pe biți Da Da sau patru cuvinte pe biți) În cele din urmă, ultimele șase coloane definesc alocarea comenzilor către blocurile funcționale De exemplu, operațiunile de comparare cu virgulă mobilă pot fi efectuate numai în al treilea slot de comandă Blocul funcțional de operare constantă este utilizat atunci când se efectuează operații cu adresare directă, de exemplu, la încărcarea unui număr dintr-un câmp de operație într-un registru ALU întreg efectuează adunări, scăderi, operații logice standard și operațiuni de împachetare și dezambalare Blocul de deplasare poate efectua deplasări de registru cu numărul specificat de biți în ambele direcții Blocul de încărcare și stocare citește cuvintele din memorie în registre și le scrie înapoi În general, TriMedia este un procesor RISC cu funcționalitate avansată, astfel încât operațiunile normale sunt efectuate cu registre, iar accesările la memorie sunt efectuate folosind un bloc funcțional de încărcare și stocare Puteți transfera , sau de biți La executarea comenzilor aritmetice și logice, memoria nu este accesată Blocul de multiplicare efectuează operații atât pe numere întregi, cât și pe numere în virgulă mobilă Următoarele trei blocuri sunt responsabile pentru adunarea și scăderea în virgulă mobilă, compararea, rădăcinile pătrate și împărțirea Operațiile de salt sunt efectuate de blocul funcțional de ramificație Tranziția este urmată de o întârziere fixă de cicluri, timp în care se execută întotdeauna comenzi (adică până la operații) Acest lucru se întâmplă chiar și cu salturi necondiționate În cele din urmă, ajungem la două blocuri concepute pentru a efectua operațiuni multimedia speciale De fapt, operațiunile multimedia sunt efectuate de un procesor de semnal digital (Digital Signal Processor, DSP) Trebuie remarcat imediat că, spre deosebire de operațiile cu numere întregi bazate pe aritmetica complementului a doi, operațiile multimedia folosesc aritmetica saturată Dacă rezultatul unei operații nu poate fi exprimat din cauza unui depășire, în loc să se arunce o excepție sau să se întoarcă ca rezultat gunoi, se înlocuiește cel mai apropiat număr valid Capitolul Arhitecturi de calculatoare paralele De exemplu, pentru numerele de biți fără semn, adăugarea a și ar duce la Deoarece unele operațiuni și sloturi de comandă sunt incompatibile, este obișnuit să existe mai puțin de cinci operații într-o comandă Dacă un anumit slot nu este utilizat, acesta trebuie comprimat pentru a minimiza consumul de spațiu Operațiile prezente în instrucțiune pot dura , sau de biți În funcție de numărul de operații conținute efectiv într-o comandă TriMedia, dimensiunea acesteia variază de la la de octeți (inclusiv supraîncărcarea de dimensiune fixă) Operațiile incluse într-o comandă TriMedia nu sunt verificate pentru compatibilitate în timpul execuției Prin urmare, operațiunile sunt efectuate chiar dacă sunt incompatibile, ceea ce generează un rezultat incorect Decizia de a abandona controalele a fost luată de dezvoltatori pentru a economisi timp și tranzistori În procesoarele Pentium se efectuează verificări de compatibilitate pentru operațiile superscalare, totuși, ca urmare, soluția devine mai complicată, costurile de timp cresc, iar numărul de tranzistori utilizați crește În TriMedia, sarcina de planificare este transferată compilatorului, care poate optimiza plasarea operațiunilor în cuvinte de instrucțiuni fără constrângeri inutile de timp Cu toate acestea, dacă o operație necesită un bloc funcțional indisponibil, întreaga comandă trebuie să aștepte până când devine din nou disponibilă La fel ca Itanium , operațiunile TriMedia sunt predictive Fiecare operație (cu două excepții minore) specifică un registru care trebuie verificat înainte de a efectua această operație Dacă bitul cel mai puțin semnificativ al acestui registru este setat, operația este efectuată; în caz contrar, se omite Fiecare dintre cele cinci (sau mai puține) tranzacții este prezisă individual Iată un exemplu de operație prezisă: IF R IADD R , R -> R Aici este testat registrul R , iar dacă valoarea bitului său cel mai puțin semnificativ este egală cu unu, conținutul registrelor R și R este adăugat și stocat în R Operația poate fi făcută necondiționată folosind R ca registru de predicat (valoarea sa este întotdeauna ) Registrul R (zero hardware) face operația goală Operațiunile multimedia din TriMedia sunt împărțite în grupuri enumerate în tabel Multe dintre aceste operații folosesc tăierea, o tehnică în care un operand este "condus" într-un anumit interval pe baza valorilor minime sau maxime ale operanzilor din afara acelui interval Tăierea este disponibilă pentru operanzi pe biți, biți și de biți De exemplu, ca urmare a valorilor de tăiere de la la în intervalul de la la , rămân valori de la la Operațiile de tăiere sunt efectuate în grupul de tăiere Următoarele cinci grupuri din tabel combina operații cu operanzi de diferite dimensiuni, prevăzând tăierea rezultatelor într-un anumit interval Operațiile de grup get min și max analizează două registre și găsesc valorile minime și maxime pentru fiecare octet În mod similar, într-un grup de comparație, două registre sunt tratate ca patru perechi de octeți, fiecare dintre acestea fiind comparat cu ceilalți Paralelism în CPU Tabelul Principalele grupuri de operațiuni specializate în TriMedia Descrierea Grupului Decuparea Decuparea octeți sau jumătăți de cuvinte Obține valoare absolută (DSP) Obține valoare absolută, obține semn, decupează Adăugare (DSP) Adăugare semnată de valori cu tăiere Scăderea (DSP) Scăderea valorilor cu semn și tăiere Înmulțire (DSP) Înmulțirea valorilor cu semn și tăiere Obține minimum și maxim Obține minimum sau maxim de patru perechi de octeți Comparație Octet-cu-octet Comparație a două registre Shift Schimbați o pereche de operanzi pe biți Suma produselor Suma semnată a produselor de sau biți Fuzionarea, împachetarea, schimbarea octetilor și manipularea jumătate de cuvânt Medie pătratică octet cu octet Medie pătratică octet cu octet fără semn Medie pe octeți Media pe octeți cu patru elemente, fără a ține cont de semn Byte Multiply Înmulțiți valori de biți fără semn Estimarea mișcării Însumarea nesemnată a valorilor absolute semnate de biți Diverse Alte operatii aritmetice Operațiunile multimedia sunt rareori efectuate pe numere întregi de de biți Acest lucru se datorează faptului că imaginile sunt de obicei construite în modelul de culoare RGB (roșu, verde, albastru) cu valori de pixeli roșu, verde și albastru de biți La procesarea (de exemplu, comprimarea) o imagine, aceasta este exprimată în trei componente, câte una pentru fiecare culoare (în spațiu RGB) sau într-o formă echivalentă logic (în spațiu YUV, despre care vom discuta în continuare) În orice caz, cea mai mare parte a calculelor este efectuată pentru matrici dreptunghiulare de numere întregi fără semn pe biți Pentru a procesa eficient astfel de matrici, TriMedia oferă numeroase operațiuni specializate Ca exemplu simplu, luați în considerare colțul din stânga sus al unei matrice de valori de biți stocate în memoria big endian (Figura a) Blocul x din acest colț conține valori de biți de la A la P Să presupunem că rezultatul transpunerii imaginii este matricea prezentată în Fig , b Cum se obține acest rezultat? Transpunerea se poate face în operații, fiecare încarcă octeții în registre noi, după care trebuie efectuate încă operații pentru a plasa acești octeți la locul lor (rețineți că cei patru diago Capitolul Arhitecturi de calculatoare paralele octeții interni nu sunt mutați în timpul transpunerii) Problema este că această schemă necesită de operații de memorie lungi și consumatoare de timp Orez Matricea elementelor de biți (a); matricea transpusă (b); matricea originală transferată în patru registre (c); transpune matricea in patru registre (r) Există o altă cale În primul rând, sunt efectuate patru operații, fiecare încarcând un cuvânt în patru registre diferite - de la R la R (așa cum se arată în Fig , c) Apoi, folosind operații de mascare și deplasare, cele patru cuvinte rezultate sunt combinate și se formează rezultatul dorit (Fig , d) La sfârșitul cuvântului sunt stocate în memorie În ciuda reducerii semnificative a numărului de accesări la memorie (de la la ), eficiența acestei metode nu este ridicată din cauza mascării și deplasării - este nevoie de prea multe operațiuni pentru a extrage și a pune toți octeții în locurile potrivite TriMedia are o metodă mai bună Mai întâi, patru cuvinte sunt plasate în registre În acest caz, rezultatul este format nu prin mascare și deplasări, ci prin operații specializate de extragere și plasare octeți în registre Astfel, opt operații multimedia speciale și același număr de accesări la memorie sunt suficiente pentru a transpune o imagine Codul începe cu două operații de încărcare în segmentele și pentru a plasa cuvinte în registrele R și R , urmate de operații similare pentru a încărca în registrele R și R Echipele care conțin aceste operațiuni pot folosi Segmentele , și în orice alt scop După încărcarea tuturor cuvintelor, operații multimedia speciale, împreună cu două operațiuni de salvare, pot fi împachetate în două comenzi care formează rezultatul În cele din urmă, sunt necesare doar instrucțiuni, din cele de sloturi rămânând disponibile pentru alte operațiuni, ceea ce înseamnă că numărul de sloturi corespunde cu aproximativ trei instrucțiuni pentru rezolvarea problemei Alte operațiuni multimedia sunt la fel de eficiente Datorită acestor operațiuni, precum și împărțirii comenzii în cinci sloturi, procesorul TriMedia se dovedește a fi un instrument extrem de eficient pentru procesarea datelor multimedia Multithreading în procesor Pentru toate procesoarele moderne cu pipeline, aceeași problemă este caracteristică - dacă un cuvânt nu este găsit în cache-urile de la primul și al doilea nivel atunci când se solicită memorie, este nevoie de mult timp pentru a încărca acest cuvânt în cache, Paralelism în CPU timp în care transportorul este inactiv O tehnică pentru rezolvarea acestei probleme se numește multithreading pe cip Acesta permite procesorului să gestioneze simultan mai multe fire de execuție de program și, prin urmare, să mascheze timpii de inactivitate Pe scurt, principiul multithreading-ului poate fi enunțat după cum urmează: dacă firul de program este blocat, procesorul se poate asigura că hardware-ul este încărcat complet prin pornirea firului de program Ideea de bază este simplă, este implementată în diferite moduri, pe care le vom lua în considerare Prima dintre acestea, numită multithreading cu granulație fină, în raport cu un procesor capabil să apeleze o instrucțiune pe ciclu de ceas, este ilustrată în Fig Pe fig , a-c arată trei fluxuri de program (L, B, C) corespunzătoare la cicluri de mașină În timpul primului ciclu, firul A execută comanda A Deoarece această instrucțiune se completează într-un ciclu, atunci când are loc al doilea ciclu, instrucțiunea L este pornită Accesul său la memoria cache de primul nivel nu reușește, așa că trec două cicluri înainte ca cuvântul dorit să fie preluat din memoria cache de nivel al doilea Execuția firului continuă în bucla După cum se arată în figură, firele B și C sunt, de asemenea, în mod regulat inactiv Ca parte a acestei soluții, următoarea comandă nu este apelată până când cea anterioară nu este finalizată Mai precis, în prezența unui contor de lovituri complex, în unele cazuri acest lucru este permis, dar pentru simplitate excludem o astfel de posibilitate A A AZ A A A A A A B C A B C AZ B C A B C B B B B B B B B С С СЗ С С С С С Ciclu A A B C C C C AZ A A Ciclu Orez Trei fluxuri de programe Pătratele goale înseamnă inactiv așteptarea datelor din memorie (a-e); multithreading cu granulație fină (d); multithreading grosier (d) Cu multithreading cu granulație fină, timpul de inactivitate este mascat prin executarea firelor "într-un cerc", adică diferite fire sunt lansate în cicluri adiacente (Fig , d) Până la sosirea ciclului de timp , accesul la memorie inițiat de instrucțiunea A s-a încheiat, deci chiar dacă instrucțiunea A are nevoie de rezultatul instrucțiunii A , pornește În acest caz, durata maximă de inactivitate este de două cicluri, ceea ce înseamnă că, dacă există trei fire de execuție de program, operațiunea de inactivitate încă se finalizează la timp Cu un timp inactiv de cicluri, ar fi necesare fire de program pentru funcționarea continuă etc Deoarece firele de execuție diferite ale programului nu sunt legate între ele în niciun fel, fiecare dintre ele are nevoie de propriul set de registre Trebuie specificat pentru fiecare instrucțiune apelată, iar apoi hardware-ul va ști ce set de registre să acceseze atunci când este necesar Prin urmare, numărul maxim de fire de execuție simultană a programului este determinat în timpul dezvoltării cipului Capitolul Arhitecturi de calculatoare paralele Cauzele timpului de nefuncționare nu se limitează la accesările la memorie Uneori, executarea instrucțiunii următoare necesită rezultatul instrucțiunii anterioare, care nu a fost încă evaluată În alte cazuri, comanda nu poate fi apelată deoarece urmează o ramură condiționată a cărei direcție nu este încă cunoscută Regula generală este formulată după cum urmează: dacă există k pași în conductă, dar cel puțin k fire de execuție de program pot fi lansate într-un cerc, atunci mai mult de o comandă nu pot fi executate într-un fir la un moment dat, deci conflicte între ele sunt excluse Într-o astfel de situație, procesorul poate rula la viteză maximă fără repaus Desigur, numărul de fire disponibile nu este întotdeauna egal cu numărul de etape de conductă, așa că unii dezvoltatori preferă o tehnică numită multithreading cu granulație grosieră, care este ilustrată în Fig e În acest caz, firul de execuție al programului A continuă să se execute secvenţial, până la timpul de inactivitate În acest caz, se pierde un ciclu Apoi există o comutare la prima comandă a fluxului de program B (Bi) Deoarece această comandă trece imediat în starea inactivă, în ciclul , comanda C este deja executată Deoarece de fiecare dată când o instrucțiune este inactivă, se pierde un ciclu, multithreading cu granulație grosieră pare să fie inferioară multithreading cu granulație fină în ceea ce privește eficiența, dar are un avantaj semnificativ - datorită unui număr mai mic de fire de execuție a programului, consumul de resursele procesorului sunt reduse semnificativ Cu un număr insuficient de fire active, această tehnică este optimă Pe baza descrierii noastre, multithreadingul grosier comută pur și simplu între fire, dar acesta nu este singurul curs de acțiune prevăzut de această tehnică Este posibil să comutați imediat de la comenzile care au potențialul de a cauza timpi de nefuncționare (cum ar fi încărcarea, salvarea și tranzițiile) fără a fi nevoie să aflați dacă timpul de nefuncționare este de fapt planificat Această strategie vă permite să comutați mai devreme decât de obicei (imediat după decodificarea instrucțiunii) și elimină buclele nesfârșite Cu alte cuvinte, execuția continuă până când este detectată posibilitatea unei probleme, după care urmează trecerea O astfel de comutare frecventă face ca multithreading cu granulație grosieră să fie legat de multithreading cu granulație fină Indiferent de opțiunea multithreading utilizată, este necesar să urmăriți cumva apartenența fiecărei operații la un anumit thread de program În cadrul multithreadingului cu granulație fină, fiecărei operații i se atribuie un identificator de fir, astfel încât atunci când se deplasează de-a lungul conductei, apartenența acesteia nu este îndoielnică Multithreadingul grosier oferă posibilitatea de a curăța conducta înainte de a începe fiecare fir succesiv În acest caz, identitatea firului de execuție curent este clar definită Desigur, această tehnică este eficientă numai dacă pauzele dintre comutare sunt mult mai lungi decât timpul necesar pentru eliberarea conductei Toate cele de mai sus se aplică procesoarelor care nu pot apela mai mult de o instrucțiune pe ciclu de ceas Cu toate acestea, știm că această limitare nu este relevantă pentru procesoarele moderne În ceea ce privește imaginea din fig , presupunem că procesorul poate apela instrucțiuni pe ciclu, însă afirmația despre imposibilitatea pornirii instrucțiunilor ulterioare dacă cea anterioară este inactivă Paralelism în CPU spiritul rămâne în vigoare Figura a ilustrează multithreading cu granulație fină într-un procesor superscalar dublu După cum puteți vedea, firul A rulează primele două comenzi în timpul primului ciclu, dar firul B rulează doar o comandă în al doilea ciclu A B C AZ B C A B C A B C A B C C AZ A B C A A B B A C A C B C A B C A C C A C A B B Bucla - a Bucla b A B C C A B C A B B B C A C NW AZ A C A A B B B C Ciclul de intrare Orez Multithreading într-un procesor dual: multithreading cu granulație fină (a); multithreading cu modul mare (b); multithreading sincron (a) Pe fig Figura b prezintă implementarea multithreading-ului cu granulație grosieră într-un procesor dual cu un planificator static care elimină bucle infinite atunci când instrucțiunile inactiv Aici, firele de execuție ale programului se execută pe rând, procesorul apelează două instrucțiuni în fiecare fir până detectează timpul de inactivitate; în ciclul următor după timpul de inactivitate, începe execuția firului următor În procesoarele superscalare, există o altă modalitate de a organiza multithreading - așa-numitul multithreading sincron (multithreading simultan), care este ilustrat în Fig , c Aceasta tehnica este o imbunatatire a multithreading-ului cu granulatie grosiera, in care fiecare thread de program poate rula doua instructiuni per clock, dar atunci cand este inactiv, instructiunile urmatorului thread sunt rulate pentru a asigura utilizarea completa a procesorului Cu multithreading sincron, toate blocurile funcționale sunt încărcate complet Dacă comanda nu poate fi pornită deoarece blocul funcțional este ocupat, este selectată comanda dintr-un alt fir Figura presupune că instrucțiunea B este inactivă în bucla AND, astfel încât instrucțiunea C este pornită în bucla Informații suplimentare despre multithreading pot fi găsite în [ , , ] Multithreadingul și execuția speculativă sunt discutate în [ ] Multithreading în Pentium După ce ne-am ocupat de teoria multithreading-ului, să luăm în considerare un exemplu practic - Pentium Deja în stadiul de dezvoltare a acestui procesor, inginerii Intel au continuat să lucreze la creșterea performanței acestuia fără a aduce modificări interfeței programului Au fost luate în considerare cinci metode simple: Creșterea frecvenței ceasului Plasarea a două procesoare pe un cip Introducerea de noi blocuri funcționale Capitolul Arhitecturi de calculatoare paralele Prelungirea transportorului Folosind multithreading Cea mai evidentă modalitate de a îmbunătăți performanța este de a crește viteza ceasului fără a modifica alți parametri De regulă, fiecare model de procesor ulterior are o viteză de ceas puțin mai mare decât precedentul Din păcate, cu o creștere în linie dreaptă a vitezei de ceas, dezvoltatorii se confruntă cu două probleme: un consum crescut de energie (care este relevant pentru laptopuri și alte dispozitive de calcul care funcționează cu baterii) și supraîncălzire (care necesită radiatoare mai eficiente) A doua metodă - plasarea a două procesoare pe un cip - este relativ simplă, dar presupune dublarea suprafeței ocupate de cip Dacă fiecare procesor este prevăzut cu propria sa memorie cache, numărul de cipuri per wafer se reduce la jumătate, dar asta înseamnă și costul de producție de două ori Dacă ambele procesoare partajează memoria cache, o creștere semnificativă a amprentei poate fi evitată, dar în acest caz apare o altă problemă - cantitatea de memorie cache per procesor este redusă la jumătate, iar acest lucru afectează inevitabil performanța În plus, în timp ce aplicațiile de server profesionale sunt capabile să utilizeze pe deplin resursele mai multor procesoare, în programele desktop obișnuite, paralelismul intern este dezvoltat într-o măsură mult mai mică Introducerea de noi blocuri funcționale nu este, de asemenea, dificilă, dar este important să găsim un echilibru aici Ce rost are o duzină de ALU dacă cipul nu poate emite comenzi către conductă la o rată care să poată încărca toate acele blocuri? O conductă cu un număr crescut de etape, capabilă să împartă sarcinile în segmente mai mici și să le proceseze în perioade scurte de timp, pe de o parte, îmbunătățește performanța, pe de altă parte, crește consecințele negative ale previziunii greșite a tranzițiilor, ratelor de cache, întreruperi și alte evenimente care perturbă procesarea normală a instrucțiunilor de curs în procesor În plus, pentru a realiza pe deplin capacitățile conductei extinse, este necesară creșterea frecvenței de ceas, iar acest lucru, după cum știm, duce la un consum crescut de energie și la disiparea căldurii În cele din urmă, puteți implementa multithreading Avantajul acestei tehnologii este că introduce un fir software suplimentar care permite folosirea resurselor hardware care altfel ar fi inactive Pe baza rezultatelor studiilor experimentale, dezvoltatorii Intel au descoperit că o creștere cu % a suprafeței cipului atunci când se implementează multithreading pentru multe aplicații oferă o creștere a performanței de % Primul procesor Intel care a suportat multithreading a fost Cheop din Ulterior, începând cu , GHz, multithreading-ul a fost introdus în linia Pentium Intel numește implementarea multithreading-ului în hyperthreading-ul Pentium Principiul principal al hyperthreading-ului este executarea simultană a două fire de execuție de program (sau procese - procesorul nu distinge procesele de pro Paralelism în CPU curge grame) Sistemul de operare tratează procesorul Pentium hyper-threaded ca pe un complex cu două procesoare cu cache partajate și memorie principală Sistemul de operare efectuează planificarea pentru fiecare fir de program separat Astfel, două aplicații pot rula în același timp De exemplu, un e-mail ar putea trimite sau primi mesaje în fundal în timp ce utilizatorul interacționează cu o aplicație interactivă - adică demonul și programul utilizator rulează în același timp, ca și cum două procesoare ar fi disponibile pentru sistem Programele de aplicație capabile să se execute în mai multe fire pot folosi atât "procesoare virtuale" De exemplu, programele de editare video permit utilizatorilor să aplice filtre pentru toate cadrele Astfel de filtre corectează luminozitatea, contrastul, echilibrul de culoare și alte proprietăți ale cadrelor Într-o astfel de situație, programul poate atribui unui procesor virtual să proceseze cadrele pare, iar altul să proceseze cadrele impare În acest caz, cele două procesoare vor funcționa complet independent unul de celălalt Deoarece firele de execuție software accesează aceleași resurse hardware, este necesară coordonarea acestor fire În contextul hyperthreading-ului, dezvoltatorii Intel au identificat patru strategii utile de gestionare a partajării resurselor: duplicarea resurselor și partajarea hard, threshold și completă a resurselor Să aruncăm o privire asupra acestor strategii Să începem cu duplicarea resurselor După cum știți, unele resurse sunt duplicate pentru a organiza fluxurile de programe De exemplu, deoarece fiecare fir de program are nevoie de control individual, este necesar un al doilea contor de program În plus, este necesară introducerea unui al doilea tabel pentru maparea registrelor arhitecturale (EAX, EBX etc ) la registrele fizice; în mod similar, controlerul de întrerupere este duplicat, deoarece gestionarea întreruperilor pentru fiecare fir se face individual Aceasta este urmată de o tehnică de partiţionare solidă a resurselor (partajarea resurselor partiţionate) între firele de execuţie a programului De exemplu, dacă procesorul are o coadă între două etape funcționale ale conductei, atunci jumătate din sloturi pot fi date firului , cealaltă jumătate firului Partajarea resurselor este ușor de implementat, nu duce la dezechilibru și asigură independența completă a firelor de execuție a programului unul față de celălalt Odată cu separarea completă a tuturor resurselor, un procesor se transformă de fapt în două Pe de altă parte, poate apărea o situație în care un fir de execuție de program nu utilizează resurse care ar putea fi utile celui de-al doilea fir, dar pentru care nu are drepturi de acces Ca urmare, resursele care ar putea fi utilizate altfel sunt inactive Opusul partajării dure este partajarea completă a resurselor În această schemă, resursele dorite pot fi accesate de orice fir de program și sunt deservite în ordinea în care sunt primite cererile de acces Să considerăm o situație în care un flux rapid, constând în principal din operații de adunare și scădere, coexistă cu un flux lent, care implementează operații de înmulțire și împărțire Dacă sunt apelate comenzi Capitolul Arhitecturi de calculatoare paralele din memorie mai repede decât se efectuează operațiunile de înmulțire și împărțire, numărul de instrucțiuni apelate în firul lent și puse în coadă pe conductă va crește treptat În cele din urmă, aceste comenzi vor umple coada, ca urmare, fluxul rapid se va opri din cauza lipsei de spațiu în el Partajarea completă a resurselor rezolvă problema utilizării suboptime a resurselor partajate, dar creează un dezechilibru în consumul acestora - un fir poate încetini sau opri altul Schema intermediară este implementată în cadrul partajării resurselor de prag Conform acestei scheme, orice fir de program poate primi dinamic o anumită cantitate (limitată) de resurse Când este aplicată resurselor replicate, această abordare oferă flexibilitate fără amenințarea ca unul dintre firele de execuție a programului să fie inactiv din cauza incapacității de a obține resurse Dacă, de exemplu, fiecăreia dintre fire i se interzice să ocupe mai mult de / din coada de comenzi, consumul crescut de resurse de către firul lent nu va interfera cu execuția celui rapid Modelul de hyperthreading al Pentium integrează diferite strategii de partajare a resurselor Astfel, se încearcă rezolvarea tuturor problemelor asociate fiecărei strategii Duplicarea este implementată în ceea ce privește resursele la care ambele fire de execuție au nevoie constant de acces (în special, în ceea ce privește contorul de programe, tabelul de mapare a registrului și controlerul de întreruperi) Dublarea acestor resurse crește aria microcircuitului cu doar % - veți fi de acord că este un preț destul de rezonabil pentru multithreading Resursele care sunt disponibile într-un astfel de volum încât este practic imposibil ca acestea să fie capturate de un singur fir (de exemplu, linii cache) sunt alocate dinamic Accesul la resursele care controlează funcționarea conductei (în special, numeroasele sale cozi) este împărțit - fiecărui fir de program i se acordă jumătate din sloturi Conducta principală a arhitecturii Netburst implementată în Pentium este prezentată în Fig , ; zonele albe și gri din această ilustrație reprezintă mecanismul de alocare a resurselor între firele de execuție albe și gri ale programului Orez Partajarea resurselor între firele de execuție a programului în microarhitectura NetBurst implementată în Pentium Paralelism în CPU După cum puteți vedea, toate cozile din această ilustrație sunt împărțite - fiecărui fir de program îi este alocată jumătate din sloturi Niciun fir nu poate restricționa munca celuilalt Blocul de distribuție și substituție este de asemenea împărțit Resursele de planificare sunt partajate dinamic, dar pe baza unor valori de prag - astfel, niciun fir nu poate ocupa toate sloturile cozii Pentru toate celelalte etape ale transportorului, există o separare completă Cu toate acestea, multithreadingul nu este atât de simplu Chiar și această tehnică avansată are dezavantajele ei Partiționarea hard a resurselor nu este asociată cu costuri serioase, dar partiționarea dinamică, în special în ceea ce privește pragurile, necesită monitorizarea consumului de resurse în timpul execuției În plus, în unele cazuri programele funcționează mult mai bine fără multithreading decât cu acesta Să presupunem, de exemplu, că dacă există două fire de execuție de program, fiecare dintre ele are nevoie de / din memoria cache pentru a funcționa corect Dacă ar fi executate pe rând, fiecare ar funcționa rezonabil de bine cu un număr mic de erori de cache (care sunt cunoscute a fi asociate cu supraîncărcare suplimentară) În cazul execuției paralele, ar exista semnificativ mai multe rateuri de cache pentru fiecare, iar rezultatul final ar fi mai rău decât fără multithreading Informații suplimentare despre mecanismul multithreading Pentium pot fi găsite în [ , , ] Multiprocesoare cu un singur cip În timp ce multithreading poate oferi îmbunătățiri semnificative de performanță la un cost rezonabil, unele aplicații au nevoie de performanță semnificativ mai mare și multithreading nu este suficient Pentru astfel de aplicații, există scheme multiprocesor Cipurile care acceptă două sau mai multe procesoare sunt utilizate în principal în serverele profesionale și în electronicele de larg consum Despre toate acestea vom vorbi acum Multiprocesoare omogene cu un singur cip Datorită dezvoltării tehnologiei VLSI (Very Large Scale Integrated Circuit), două sau mai multe procesoare puternice pot fi acum instalate pe un singur cip Deoarece aceste procesoare accesează întotdeauna aceleași module de memorie (cache-urile L și L și memoria principală), ele sunt considerate a fi un singur multiprocesor, așa cum am văzut în Capitolul Acestea sunt de obicei instalate în fermele mari de servere web Prin colocarea a două procesoare, separarea resurselor de memorie, a discului și a interfețelor de rețea, performanța serverului poate fi în multe cazuri dublată, iar costul de a face acest lucru va crește într-o măsură mult mai mică (deoarece chiar dacă un multiprocesor costă de două ori mai mult decât un procesor obișnuit, nu uitați că prețul său este doar o mică parte din costul total al sistemului) Capitolul Arhitecturi de calculatoare paralele Există două modele tipice pentru multiprocesoarele mici cu un singur cip În primul dintre ele (Fig , a) există un microcircuit și două conducte - astfel, viteza de execuție a instrucțiunilor se dublează teoretic În a doua soluție (Fig , b), microcircuitul oferă două nuclee independente, fiecare dintre ele conține un procesor cu drepturi depline Un nucleu este un cip mare (cum ar fi un procesor, un controler I/O sau cache) care se află pe un cip ca modul, de obicei împreună cu alte câteva nuclee Orez Multiprocesoare cu un singur cip: un cip cu două conducte (a); cip cu două nuclee (b) Prima soluție permite partajarea resurselor (cum ar fi blocuri funcționale) între procesoare; cu alte cuvinte, fiecare procesor poate accesa resurse care nu sunt solicitate de celălalt procesor A doua soluție necesită o modificare a designului microcircuitului și nu prevede mai mult de două procesoare Trebuie remarcat aici că nu este atât de dificil să plasați două sau mai multe nuclee de procesor pe un cip În continuare, pe măsură ce prezentarea avansează, vom reveni la subiectul multiprocesoarelor În acest capitol, acoperim în principal subiecte legate de multiprocesoare bazate pe cipuri cu un singur procesor, dar multe dintre ele se aplică cipurilor cu mai multe procesoare Multiprocesoare eterogene cu un singur cip Pe lângă servere, multiprocesoarele cu un singur cip sunt utilizate în sistemele încorporate, mai ales în electronice audiovizuale de larg consum, cum ar fi televizoare, playere DVD, camere video, console de jocuri, telefoane mobile etc Astfel de sisteme se caracterizează prin cerințe de performanță crescute și limitări severe În ciuda diferențelor de aspect, aceste dispozitive sunt în esență computere miniaturale cu unul sau mai multe procesoare, module de memorie, controlere și dispozitive I/O specializate De exemplu, un telefon mobil este un computer echipat cu un procesor, memorie, o tastatură compactă, un microfon, un sistem de semnal audio și un adaptor de rețea fără fir Paralelism în CPU Să luăm ca exemplu un DVD player portabil Calculatorul plasat în el este proiectat să îndeplinească mai multe funcții: Controlul unui servo ieftin și nesigur care reglează poziția capului Transformarea unui semnal analogic în formă digitală Corectarea erorilor Decriptare și gestionarea drepturilor Decomprimarea datelor video MPEG- Decomprimarea datelor audio Codificare de ieșire pentru redare pe sisteme de televiziune NTSC, PAL sau SECAM Toate aceste funcții trebuie efectuate în timp real, îndeplinind în același timp cerințe stricte de calitate a serviciului, consum de energie, disipare a căldurii, dimensiune, greutate și cost Datele de pe suportul DVD sunt stocate într-o spirală lungă (vezi, de exemplu, Figura ) Capul de redare trebuie să urmeze spirala discului care se rotește Prețul unor astfel de dispozitive rămâne scăzut datorită designului mecanic relativ simplu și controlului software strict al poziției capului Un semnal analogic vine de la cap, care trebuie convertit în format digital înainte de procesare După digitizare, se efectuează corectarea intensivă a erorilor care apar în timpul apăsării discului Datele video sunt stocate pe medii în format MPEG- , ceea ce necesită calcule complexe, cum ar fi transformările Fourier pentru a decomprima Datele audio sunt comprimate după modelul psihoacustic, care nu este mai puțin complex în ceea ce privește decompresia În cele din urmă, datele audio și video trebuie convertite într-un format adecvat pentru ieșire pe televizoare NTSC, PAL sau SECAM, în funcție de țara în care este utilizat DVD player-ul Desigur, este imposibil să rezolvi programatic toate aceste sarcini în timp real pe un procesor universal ieftin Astfel, este nevoie de un multiprocesor eterogen cu mai multe nuclee specializate Schema logică a DVD player-ului este prezentată în fig Nucleele prezentate în fig , diferă în specializarea funcțională; fiecare dintre ele este proiectat cu așteptarea de a obține rezultate maxime la cel mai mic cost posibil De exemplu, un semnal video comprimat pentru DVD este stocat în format MPEG- (aceasta este abrevierea organizației care a dezvoltat acest format, Motion Picture Experts Group - un grup de experți în domeniul imaginilor în mișcare) În timpul compresiei, fiecare cadru este împărțit în mai multe blocuri și pe fiecare dintre ele se efectuează transformări complexe Cadrul poate consta în întregime din blocuri modificate sau din blocuri prezente în cadrul precedent cu o indicație a decalajului (Ax, Ar/) față de poziția curentă și pixelii măsurați Din punct de vedere programatic, astfel de calcule sunt efectuate foarte lent, cu toate acestea, cu prezența unui procesor de decodare MPEG- , acest proces este accelerat semnificativ În mod similar, decodificarea și recodificarea unui semnal audio-video compozit conform Capitolul Arhitecturi de calculatoare paralele in raport cu unul dintre standardele standard de televiziune, este mai eficient sa folosesti un procesor hardware specializat În acest context, este firesc ca playerele DVD și dispozitivele similare să folosească multiprocesoare eterogene cu mai multe nuclee În același timp, deoarece procesorul de control este un dispozitiv programabil universal, un astfel de cip multiprocesor poate fi instalat într-un dispozitiv care este aproape funcțional, cum ar fi un DVD recorder Controler de disc procesor de control Cache Memorie Multiprocesor eterogen cu șase nuclee Codificator video compozit NTSC/PAL/SECAM Decodor audio Decodor de date video MPEG Orez Diagrama logică a unui simplu DVD player cu un multiprocesor eterogen și mai multe nuclee specializate pentru a îndeplini diverse funcții Multiprocesoarele eterogene se găsesc și în telefoanele mobile (CDMA sau GSM) echipate cu camere, camere video, aplicații de jocuri, browsere, clienți de e-mail, receptoare digitale prin satelit și conectivitate la internet wireless (IEEE sau WiFi) Nu toate telefoanele sunt echipate cu aceste funcții în acest moment, dar în viitor probabil că se vor răspândi peste tot Pe măsură ce dispozitivele moderne devin din ce în ce mai complexe, ceasurile devin navigatoare GPS și ochelarii de soare devin radiouri, nevoia de multiprocesoare eterogene este doar în creștere Destul de curând, cipurile cu de milioane de tranzistori vor deveni obișnuite Este foarte dificil să proiectați astfel de dispozitive voluminoase într-o versiune dintr-o singură piesă - până la finalizarea lucrării, acestea au toate șansele să devină învechite Este mult mai logic să plasați mai multe nuclee (care sunt, de fapt, biblioteci) cu un număr relativ mare de tranzistori pe un singur cip și să le combinați În același timp, dezvoltatorii trebuie să decidă care procesor va fi procesorul de control și care vor fi specializati Creșterea sarcinii componentei software a procesorului de control încetinește sistemul, dar reduce costul și dimensiunea cipului Prezența mai multor procesoare specializate pentru procesarea datelor audio și video necesită o creștere a zonei microcircuitului și crește costul acestuia, dar, pe de altă parte, oferă performanțe ridicate cu Paralelism în CPU frecvență de ceas relativ scăzută, în legătură cu care se reduc consumul de energie și disiparea căldurii Cu alte cuvinte, atunci când proiectează multiprocesoare multi-core, dezvoltatorii nu se gândesc la unde să plaseze tranzistori suplimentari, ci la cum și în ce domenii pot face compromisuri Programele de procesare a datelor audio și video funcționează cu cantități uriașe de informații Deoarece toate aceste date trebuie procesate rapid, de la la % din suprafața cipului este alocată pentru plasarea unuia sau altui tip de memorie În acest sens, se ridică numeroase întrebări De câte niveluri de memorie cache aveți nevoie într-un caz sau altul? Care ar trebui să fie modulele cache, separate sau combinate? Care ar trebui să fie volumul fiecărui modul? Cât de repede ar trebui să ruleze? Trebuie să plasez alte tipuri de module de memorie pe cip? Care: SRAM sau poate SDRAM? Răspunsurile la aceste întrebări determină în mare măsură performanța, consumul de energie și parametrii de disipare a căldurii ai microcircuitului Pe lângă procesoare și memorie, este necesar să se dezvolte o schemă pentru interacțiunea nucleelor între ele În sistemele mici, o singură magistrală este bine în acest scop, dar în sistemele mai mari, această soluție poate duce la faptul că schema de interacțiune a nucleelor va fi blocajul întregului sistem În multe cazuri, problema este rezolvată prin instalarea mai multor magistrale sau organizarea unei topologii inelare În acest din urmă caz, arbitrajul se realizează prin trimiterea unui mic pachet în jurul inelului - așa-numitul marker sau token Înainte de a transmite date, nucleul trebuie să dețină jetonul primit După finalizarea transferului, nucleul începe jetonul mai departe într-un cerc Astfel, conflictele în timpul transferului de date sunt excluse Ca exemplu de mecanism pentru interacțiunea nucleelor pe un cip, luați în considerare arhitectura CoreConnect de la IBM (Fig ) Este conceput pentru a combina nuclee în multiprocesoare eterogene cu un singur cip Pentru multiprocesoarele cu un singur cip, CoreConnect îndeplinește aproximativ același rol ca magistrala PCI pentru Pentium Pe de altă parte, spre deosebire de PCI, arhitectura CoreConnect nu a fost proiectată pentru compatibilitate cu hardware-ul și protocoalele vechi și fără a ține cont de limitările de comunicare la nivel de placă, cum ar fi numărul de pini pe conectorii de margine Arhitectura CoreConnect constă din trei autobuze Magistrala procesorului este o magistrală sincronă de mare viteză cu , sau de linii de date care rulează la , sau MHz Debitul său maxim este de , Gb/s (comparativ cu , Gb/s pentru magistrala PCI) Pipelinging permite nucleelor să solicite magistrala în timpul unui transfer de date În plus, ca și în magistrala PCI, nucleele pot transmite simultan date pe linii diferite Magistrala procesorului este optimizată pentru transmiterea de blocuri scurte de date și este concepută pentru a oferi interacțiune între nuclee rapide - procesoare, decodoare MPEG- , rețele de mare viteză și altele asemenea Capitolul Arhitecturi de calculatoare paralele Orez Arhitectura CoreConnect a IBM Deoarece o singură magistrală de procesor nu este suficientă pentru întregul cip, este prevăzută o a doua magistrală periferică pentru transferul de date între dispozitivele I/O cu viteză redusă (UART-uri, temporizatoare, controlere USB, dispozitive seriale I/O etc ) Simplifică comunicarea între perifericele pe , și de biți cu doar câteva sute de porți Magistrala periferică este, de asemenea, sincronă, iar debitul său maxim ajunge la Mbps Aceste două autobuze sunt conectate printr-un pod, amintind de podurile care legau până de curând magistralele PCI și ISA, până când magistrala ISA a fost eliminată complet în urmă cu ceva timp Arhitectura CoreConnect are, de asemenea, o magistrală de înregistrare a dispozitivului Aceasta este o magistrală de handshake asincronă extrem de lentă care permite procesoarelor să acceseze registrele dispozitivelor periferice pentru a controla aceste dispozitive Transmisiile pe acesta sunt efectuate neregulat, pe mai mulți octeți Combinația dintre un bus-on-a-chip standard, o interfață și infrastructura potrivită face din CoreConnect o versiune miniaturizată a arhitecturii PCI, pentru care procesoare și controlere compatibile pot fi produse în viitor Singura diferență este că, în lumea PCI, producătorii proiectează și vând plăci comercianților și utilizatorilor finali În cazul CoreConnect, dezvoltatorii de bază își licențează producția către producătorii de electronice de larg consum și alte companii, care apoi dezvoltă multiprocesoare eterogene pe baza propriilor nuclee și licențiate Întrucât producția de cipuri mari și complexe necesită investiții mari în capacitatea de producție, în majoritatea cazurilor producătorii de electronice de larg consum pregătesc modele pe ordinea cipurilor în companii specializate În prezent, există nuclee pentru diferite tipuri de procesoare (ARM, MIPS, PowerPC etc ), decodoare MPEG, procesoare de semnal digital și toate controlerele standard I/O Pe lângă CoreConnect, există și alte arhitecturi de magistrală pe cip În special [ ], anvelopa AMBA nu este în niciun fel inferioară acesteia în ceea ce privește popularitatea coprocesoare (Advanced Microcontroller Bus Architecture - arhitectură avansată de magistrală pentru microcontrolere) Ceva mai puțin populare [ , ] sunt magistralele VCI (Virtual Component Interconnect) și OCP-IP (Open Core Protocol-International Partnership) Cu toate acestea, autobuzele pe cip sunt doar începutul; rețele întregi sunt deja proiectate pe un singur cip [ ] Deoarece producătorii de cipuri nu pot crește constant viteza de ceas din cauza problemelor termice, dezvoltarea multiprocesoarelor cu un singur cip devine extrem de urgentă Informații suplimentare despre acest subiect pot fi obținute în [ , , , , , ] coprocesoare După ce ne-am ocupat de metodele de implementare a paralelismului intra-procesor, vom lua în considerare opțiunile de creștere a vitezei unui computer prin introducerea unui al doilea procesor specializat Astfel de coprocesoare sunt foarte diverse, inclusiv ca scară Mainframe-urile IBM și toate modelele ulterioare ale acestei linii oferă canale independente pentru I/O CDC includea procesoare independente responsabile de I/O Un alt domeniu de aplicare pentru coprocesoare este procesarea grafică și aritmetica în virgulă mobilă Chiar și un cip DMA poate fi considerat un coprocesor Uneori procesorul trimite o instrucțiune sau un set de instrucțiuni coprocesorului pentru execuție; în caz contrar, coprocesorul acționează independent și își execută propriile instrucțiuni Din punct de vedere structural, coprocesoarele pot fi realizate într-un pachet separat (de exemplu, canale I/O ale IBM ), ca o placă plug-in (ca în procesoarele de rețea) sau instalate pe microcircuitul principal (cum ar fi coprocesoarele pentru procesarea în virgulă mobilă) numere) Oricum ar fi, toate aceste opțiuni sunt unite de rolul subordonat al coprocesorului în raport cu procesorul principal În cele ce urmează, ne vom uita la câteva domenii în care utilizarea coprocesoarelor are ca rezultat îmbunătățiri măsurabile ale performanței, inclusiv suport pentru rețea, procesarea media și criptografia Procesoare de rețea Majoritatea computerelor moderne sunt conectate la o rețea locală sau la Internet Ca urmare a progresului tehnologic în domeniul echipamentelor de rețea, transmisia de date în rețele de astăzi este atât de rapidă încât devine din ce în ce mai dificilă procesarea programatică a tuturor datelor de intrare și de ieșire În acest sens, sunt dezvoltate procesoare de rețea speciale pentru procesarea traficului, iar multe sisteme de calcul profesionale sunt deja echipate cu ele astăzi În această subsecțiune, trecem în revistă pe scurt elementele de bază ale rețelei și discutăm cum funcționează procesoarele de rețea Capitolul Arhitecturi de calculatoare paralele Bazele rețelei Rețelele de calculatoare sunt împărțite în două tipuri principale: rețelele locale (Local Area Networks, LAN) conectează computere situate în aceeași cameră sau clădire, iar rețelele globale (Wide Area Networks, WAN) conectează computere situate la o distanță considerabilă unele de altele Cel mai popular tip de LAN se numește Ethernet Inițial, o simplă rețea Ethernet era formată dintr-un cablu gros, la care, folosind un dispozitiv sub denumirea ironică de dinte de vampir (robinet de vampir), erau furnizate fire de la calculatoarele incluse în rețea În rețelele Ethernet moderne, computerele sunt conectate la un comutator central (prezentat în dreapta în Figura ) În primele versiuni de Ethernet, rata de transfer de date era limitată la Mbps, iar în prima versiune comercială a crescut la Mbps Ulterior, au apărut versiuni Fast Ethernet și Gigabit Ethernet cu rate de transmisie de Mbps, respectiv Gbps Nu cu mult timp în urmă, a fost lansată o versiune comercială cu o viteză de Gb/s, iar în viitorul apropiat viteza va crește la Gb/s Orez Schema de conectare a utilizatorilor la servere de Internet Sediul furnizorului de aplicații Organizarea rețelelor globale nu este atât de uniformă În astfel de rețele sunt instalate calculatoare numite routere, între care sunt așezate canale cu fir sau cu fibră optică De la computerul sursă la computerul țintă, datele sunt transmise sub formă de blocuri mici de - de octeți, numite pachete La fiecare site de releu, sau hop, pachetul este mai întâi stocat în memoria routerului și apoi trimis mai departe de îndată ce linia de comunicație necesară este liberă Această abordare se numește comutare de pachete stocare și redirecționare Deși mulți oameni cred că Internetul este o rețea globală, din punct de vedere tehnic este o amalgamare a unui număr mare de rețele diferite Cu toate acestea, această distincție nu este fundamentală pentru o analiză ulterioară Pe fig coprocesoare Structura Internetului este prezentată din punctul de vedere al utilizatorului casnic Computerul unui astfel de utilizator accesează de obicei serverele web printr-o linie telefonică, conectându-se la aceasta fie folosind un modem obișnuit, fie printr-o linie ADSL (vezi Capitolul ) Pentru conectare poate fi folosit și un cablu TV prin cablu În acest caz, partea dreaptă a Fig va arăta puțin diferit, deoarece compania de cablu TV va fi furnizorul aplicațiilor Deci, computerul utilizatorului descompune datele în pachete pentru a le transmite unei companii speciale numite Internet Service Provider (ISP) ISP-ul însuși folosește o conexiune de mare viteză (de obicei, fibră optică) la una dintre rețelele regionale sau backbone care alcătuiesc Internetul Pachetele sunt transferate între computerele din rețea, deplasându-se hop cu hop la server Majoritatea companiilor de servicii web au ceea ce se numește firewall, un computer specializat care filtrează pachetele primite pentru a elimina pachetele nedorite (cum ar fi pachetele de la hackeri) Firewall-ul este conectat la LAN local (de obicei printr-un comutator), care este responsabil pentru livrarea pachetelor către serverul dorit Desigur, realitatea este mult mai complicată, dar ideile principale ilustrate în Fig sunt corecte Software-ul de rețea constă din mai multe protocoale, fiecare dintre acestea fiind un set de formate, secvențe de schimb și reguli care determină scopul pachetelor De exemplu, atunci când un utilizator dorește să obțină o pagină web de la un server, browserul său trimite către server un pachet cu o solicitare GET PAGE, care "știe" cum să proceseze pachetul primit, folosind HTTP (Nureg-Text Transfer Protocol) ) protocol Procesul de transmisie folosește multe protocoale diferite, adesea în combinație Ele sunt de obicei organizate într-o structură ierarhică stratificată, în care protocoalele de nivel superior trec pachete către protocoalele de nivel inferior, iar protocolul de nivel inferior se ocupă de transferul real de date Pe partea receptorului, pachetele se deplasează în sus în ierarhie în ordine inversă Deoarece procesoarele de rețea sunt ocupate cu executarea protocoalelor, este logic să vorbim despre protocoale mai detaliat înainte de a studia procesoarele Să revenim pentru un moment la solicitarea GET PAGE Cum ajunge exact la serverul web? În primul rând, browserul stabilește o conexiune cu serverul utilizând protocolul de control al transmisiei (TCP) Software-ul care implementează acest protocol asigură că toate pachetele trimise sunt livrate și în ordinea corectă Dacă un pachet este pierdut, software-ul TCP retransmite cât mai repede posibil până când pachetul este în sfârșit primit Ceea ce se întâmplă de fapt este următorul Browserul generează un mesaj HTTP valid cu o solicitare GET PAGE, apoi îl transmite software-ului TCP, care trimite pachetul prin conexiune Software-ul TCP adaugă un antet la începutul mesajului care conține un număr de secvență și alte informații Acest antet suplimentar se numește antet TCP După ce și-a făcut partea, software-ul TCP transmite TCP-per-head împreună cu sarcina utilă (conținând solicitarea GET PAGE) către altcineva Capitolul Arhitecturi de calculatoare paralele un program care implementează protocolul IP (Internet Protocol) Acest program adaugă un antet IP la începutul pachetului cu informații despre adresele expeditorului (adică mașina care transmite pachetul) și destinatarului (mașina care așteaptă pachetul), numărul maxim de hopuri de-a lungul cărora pachetul va exista (pentru ca pachetele "pierdute" să nu trăiască pentru totdeauna, inundând întregul Internet), o sumă de control (pentru detectarea erorilor de memorie și a erorilor de transmisie) și o serie de alte câmpuri Apoi, pachetul (inclusiv antetul IP, antetul TCP și cererea GET PAGE în sine) este transmis la nivelul de legătură de date, care adaugă antetul său la pachet și transmite pachetul prin linia de comunicație Acest strat adaugă și o sumă de control la sfârșit, numită CRC (Cyclic Redundancy Check - verificare ciclică redundanță) și vă permite să detectați erorile de transmisie Poate părea că două sume de control, la nivel de IP și la nivel de legătură de date, sunt mai mult decât necesare, dar această abordare crește fiabilitatea La fiecare hop, se verifică codul CRC al pachetului, după care antetul, împreună cu codul CRC, este regenerat, în conformitate cu cerințele canalului de transmisie a datelor de ieșire Pe fig Figura arată ce este un pachet pe un Ethernet Carcasa liniei telefonice diferă doar prin faptul că există un antet de linie comutată în loc de un antet Ethernet Procesarea antetului este una dintre sarcinile importante pe care procesoarele de rețea sunt proiectate să le rezolve Desigur, este de prisos să menționăm că am atins doar pe scurt subiectul rețelelor de calculatoare Vezi [ ] pentru mai multe detalii Antet Ethernet Antet IP Antet TCP Sarcină utilă C R C Orez Tipul de pachet Ethernet Înțelegerea procesoarelor de rețea O varietate de dispozitive se conectează la rețea Pentru utilizatorii finali, acestea sunt în primul rând computere personale (desktop-uri și laptop-uri), dar și numărul de console de jocuri, secretare electronice personale (PDA-uri), telefoane mobile este în creștere Pentru companii, rolul sistemelor finale este jucat de servere și computere personale În plus, rețelele operează nenumărate dispozitive intermediare diferite, inclusiv routere, comutatoare, firewall-uri, servere proxy, sisteme de echilibrare a încărcăturii În mod curios, aceste sisteme intermediare au cele mai serioase cerințe - trebuie să asigure transmiterea unui număr maxim de pachete pe secundă În plus, serverelor sunt impuse cerințe serioase, deoarece pentru computerele utilizatorilor, nu există cerințe speciale pentru acestea În funcție de rețea și de pachetul în sine, un pachet care intră în rețea poate necesita o anumită procesare înainte de a fi trimis pe linia de ieșire sau transmis către programul de aplicație Procesarea poate include decizia unde să trimiteți pachetul, împărțirea pachetului în părți sau asamblarea acestuia din părți, coprocesoare managementul calității serviciului (în special pentru fluxurile audio și video), protecția datelor (codificare și decodare), compresie și decompresie etc Când rata de date LAN se apropie de Gb/s, iar dimensiunea pachetului se apropie de KB, computerul din rețea trebuie să proceseze aproape milioane de pachete pe secundă Pentru pachetele de de octeți, aceasta crește la aproximativ Mpps Efectuarea tuturor funcțiilor menționate în ordinul a - ns, în plus față de copierea pachetelor necesară invariabil, este pur și simplu imposibil de implementat în software Suportul hardware este esențial aici Una dintre soluțiile hardware la problema procesării rapide a pachetelor este utilizarea circuitelor integrate specifice aplicației (Application-Specific Integrated Circuit, ASIC) Un astfel de microcircuit este ca un program implementat hardware care poate efectua oricare dintre acțiunile predeterminate Baza multor routere moderne sunt circuitele ASIC Cu toate acestea, există unele probleme asociate cu ASIC-urile În primul rând, au nevoie de mult timp pentru proiectare și nu mai puțin pentru a produce În plus, acestea sunt dispozitive hard-coded, adică pentru a introduce o nouă funcționalitate, este necesară dezvoltarea și fabricarea unui nou microcircuit Și mai rău, erorile sunt un adevărat coșmar, deoarece singura modalitate de a le remedia este proiectarea, fabricarea și instalarea unui nou microcircuit (corectat) În cele din urmă, această abordare este foarte costisitoare, cu excepția cazului în care volumul mare de producție poate compensa costurile de dezvoltare A doua abordare se bazează pe utilizarea matricelor de porți programabile în câmp (FPGA) O astfel de matrice este un set de porți, din care circuitul necesar este construit prin recomutație Matricele de porți programabile pe teren au un timp de comercializare mult mai scurt decât ASIC-urile și pot fi reprogramate pe teren cu un programator dedicat Dar, în același timp, ele sunt foarte complexe, costisitoare și mai lente decât circuitele ASIC, astfel încât matricele de porți programabile în câmp nu s-au răspândit, cu excepția unor zone foarte specializate În sfârșit, să trecem la procesoarele de rețea - dispozitive capabile să proceseze pachetele de intrare și de ieșire la rata lor de transmisie, adică în timp real Ele sunt de obicei implementate ca o placă plug-in care conține, pe lângă cipul procesorului de rețea, memorie și logica auxiliară Una sau mai multe linii de rețea sunt conectate la placă Procesorul primește pachete de la linie, le procesează și apoi le transmite pe o altă linie dacă este un router sau le trimite către magistrala principală de sistem (adică către magistrala PCI) dacă este un dispozitiv final, care poate fi, de exemplu, un computer personal Un procesor de rețea tipic și placa sa sunt prezentate în fig De obicei, placa are atât memorie statică (SRAM) cât și memorie dinamică sincronă cu acces aleatoriu (SDRAM) - aceste tipuri de memorie sunt utilizate în scopuri diferite SRAM este mai rapid decât SDRAM, dar datorită costului ridicat al acestui tip de memorie Capitolul Arhitecturi de calculatoare paralele de obicei un pic Este folosit pentru a stoca tabelele de rutare și alte structuri de date cheie, în timp ce pachetele reale care sunt procesate sunt scrise pe SDRAM Deoarece ambele tipuri de memorie se află off-chip pe procesorul de rețea, aveți flexibilitatea de a alege cantitatea de memorie Deci, în sistemele simple cu o singură linie de rețea (astfel de plăci pot fi instalate, de exemplu, într-un computer personal sau un server), poate exista puțină memorie, în timp ce un router are nevoie de mult mai mult RSI Orez Cristal și placa unui procesor de rețea tipic Procesoarele de rețea sunt optimizate pentru a procesa rapid un număr mare de pachete de intrare și de ieșire Aceasta înseamnă că milioane de pachete pe secundă trec prin fiecare dintre liniile de rețea, iar routerul trebuie să accepte zeci de astfel de linii O astfel de performanță serioasă poate fi obținută numai pe procesoare cu un grad ridicat de paralelism intern În plus, procesorul include în mod necesar mai multe controlere PPE (Protocol / Program-mable / Packet Processing Engine - un sistem programabil de procesare a pachetelor și a protocolului), fiecare dintre ele constând dintr-un nucleu RISC (eventual modificat) și o cantitate mică de memorie internă pt program de stocare și mai multe variabile Există două abordări pentru organizarea controlorilor EIP În cel mai simplu caz, toate controlerele EIP sunt fabricate identice Când un nou pachet ajunge la procesorul de rețea, acesta este transmis controlerului PPE care este în prezent inactiv pentru procesare Dacă nu există controlere PPE libere, pachetul este pus în coadă în memoria SDRAM de la bord, așteptând ca unul dintre controlerele PPE să devină liber Cu o astfel de organizare, legăturile orizontale prezentate în Fig lipsesc, deoarece controlorii EIP diferiți nu trebuie să comunice între ei coprocesoare O altă abordare a organizării controlorilor PPE este o conductă, în care fiecare dintre controlorii PPE efectuează o etapă de procesare, după care transmite un pointer către pachetul primit următorului controler PPE din conductă O astfel de conductă funcționează în același mod ca conductele CPU discutate în Capitolul În ambele aranjamente, controlerele PPE sunt complet programabile La procesoarele de rețea mai avansate, controlerele PPE sunt multi-threaded, adică fiecare dintre ele are mai multe seturi de registre și un registru hardware care indică ce set este utilizat Acest lucru permite ca mai multe programe (adică fire de execuție) să ruleze în același timp și să comute între ele pur și simplu schimbând variabila "setul curent de registru de lucru" Când unul dintre firele de execuție a programului este forțat să aștepte (de exemplu, la accesarea SDRAM, care necesită mai multe cicluri), controlerul PPE poate fi comutat instantaneu la un fir care poate continua să funcționeze Acest lucru face posibilă menținerea controlerelor PPE ocupate, chiar dacă adesea trebuie să aștepte finalizarea comunicației SDRAM sau a altor operațiuni externe lente Pe lângă controlerele PPE, toți procesoarele de rețea au un procesor de control pentru a efectua toate acțiunile care nu au legătură directă cu procesarea pachetelor (de exemplu, actualizarea tabelelor de rutare) De obicei, este un procesor RISC de uz general, a cărui memorie pentru date și comenzi se află pe același cip cu procesorul Mai mult, un procesor de rețea poate avea mai multe procesoare specializate dedicate operațiunilor critice Sunt circuite integrate specifice aplicației (ASIC) foarte mici, capabile să efectueze o singură acțiune simplă, cum ar fi căutarea unei adrese de destinație într-un tabel de rutare Toate componentele procesorului de rețea comunică între ele la viteze multi-gigabit prin una sau mai multe magistrale paralele pe cip Procesarea pachetelor Indiferent dacă procesorul de rețea are o organizare pipeline sau paralelă, fiecare pachet care sosește trece prin mai multe etape de procesare Pentru unele procesoare, aceste etape sunt împărțite în procesare de intrare (procesare de intrare) și procesare de ieșire (procesare de ieșire) Primul grup include operațiuni cu pachete care au venit din exterior (printr-o linie de rețea sau magistrală de sistem), iar al doilea grup include operațiuni cu pachete înainte ca acestea să fie trimise Astfel, fiecare pachet este supus mai întâi procesării de intrare și apoi procesării de ieșire Această împărțire este destul de arbitrară, deoarece unele operațiuni pot fi efectuate în orice etapă (de exemplu, colectarea de informații despre trafic) Vom parcurge acești pași în ordinea în care ar putea fi făcute, dar rețineți că nu toate pachetele trebuie să le parcurgă și este posibilă o altă secvență de pași Verificarea sumei de control Dacă un pachet de intrare sosește dintr-o rețea Ethernet, suma sa de control (codul CRC) este recalculată și comparată cu valoarea prezentă în pachet pentru a se asigura că pachetul a fost primit fără erori Capitolul Arhitecturi de calculatoare paralele Dacă ambele valori sunt egale sau dacă nu există un câmp CRC în pachetul Ethernet, suma de control a pachetului IP este calculată și comparată cu valoarea din pachet Acest lucru asigură că pachetul IP nu a fost corupt de un bit rău din memoria expeditorului după ce expeditorul a calculat suma de control pentru pachetul IP Dacă toate verificările sunt trecute, pachetul este trecut pentru procesare ulterioară, în caz contrar, este pur și simplu aruncat Extragerea valorilor câmpului Prin parsare, se determină poziția antetului necesar, iar valorile câmpurilor cheie corespunzătoare acestui antet sunt extrase din pachet Într-un comutator Ethernet, este examinat doar antetul Ethernet; într-un router IP, numai antetul IP Valorile câmpurilor cheie sunt stocate fie în registre (cu organizare paralelă a controlerelor PPE), fie în SRAM (cu organizare pipeline) Clasificarea pachetelor Pachetele sunt clasificate conform unui set de reguli de programare În cel mai simplu caz, pachetele de date sunt separate de pachetele de control, dar separarea este de obicei mult mai subtilă Alegerea căii Majoritatea procesoarelor de rețea au o cale rapidă specială, care este optimizată pentru a transporta întreaga varietate de pachete de date, în timp ce restul pachetelor sunt procesate în felul lor, de obicei de către procesorul de control În consecință, trebuie aleasă fie calea rapidă, fie una dintre căile lente Definirea retelei tinta Pachetele IP conțin o adresă de destinație pe de biți Cu toate acestea, este imposibil (și nedorit) să folosiți un întreg tabel de de intrări pentru a găsi destinatarul fiecărui pachet Prin urmare, partea stângă a adresei conține de obicei adresa rețelei, în timp ce partea dreaptă indică către o singură mașină din acea rețea Lungimea adresei de rețea nu este fixă, așa că determinarea acesteia nu este o sarcină banală și este și mai complicată de faptul că sunt permise mai multe opțiuni, dintre care cea mai lungă este considerată corectă Acest pas folosește adesea un ASIC Căutare rută După determinarea adresei rețelei țintă dintr-un tabel stocat în SRAM, rezultă care dintre liniile de ieșire trebuie să trimită pachetul Din nou, un ASIC poate fi utilizat în acest pas Avarie si montaj Aplicațiile maximizează adesea sarcina utilă (date) pachetelor TCP în încercarea de a reduce numărul de apeluri de sistem, dar atât TCP, IP, cât și Ethernet au limite privind dimensiunea maximă a pachetului Ca o consecință a acestor limitări, poate fi necesară împărțirea pachetelor (și, prin urmare, încărcarea utilă) în bucăți înainte de a le trimite și reasamblarea lor la capătul de primire Aceste funcții pot fi efectuate de procesorul de rețea Calcule Uneori este necesar să se efectueze anumite calcule complexe asupra datelor, de exemplu, să se efectueze compresie și decompresie, codificare și decodare Aceste acțiuni pot fi transferate către procesorul de rețea coprocesoare Gestionați anteturile Uneori trebuie să adăugați sau să eliminați anteturi, precum și să modificați valorile anumitor câmpuri De exemplu, în antetul IP există un contor al numărului de hopuri pe care pachetul le poate trece înainte de a se autodistruge După trecerea fiecărui hop, valoarea contorului trebuie redusă cu , iar această funcție poate fi îndeplinită de procesorul de rețea Managementul cozilor Pachetele de intrare și de ieșire trebuie adesea să stea la coadă pentru a fi procesate Dar pentru aplicațiile multimedia, pentru a evita jitterul, este necesar ca întârzierile dintre pachete să nu depășească o anumită valoare În plus, un firewall sau un router poate avea nevoie să redistribuie sarcina de intrare între mai multe linii de ieșire conform anumitor reguli Toate aceste sarcini pot fi rezolvate de procesorul de rețea Generarea de sume de control Pachetele de ieșire trebuie să aibă sume de control Suma de control a pachetelor IP poate fi calculată de procesorul de rețea, în timp ce suma de control a pachetelor Ethernet este, în general, generată de hardware Contabilitate În unele cazuri, este necesar să se contorizeze traficul pe măsură ce acesta trece pachete, mai ales dacă una dintre rețele oferă tranzitul traficului ca serviciu comercial Contabilitatea poate fi gestionată de procesorul de rețea Culegerea de statistici Multe companii ar dori să aibă statistici de trafic, iar procesoarele de rețea pot colecta aceste informații Creșterea productivității Performanța este cea mai importantă caracteristică a procesoarelor de rețea Ce se poate face pentru a-l îmbunătăți? Înainte de a răspunde la această întrebare, este necesar să definim ce este Una dintre metrici este numărul de pachete transmise pe secundă, cealaltă este numărul de octeți transmiși pe secundă Aceste valori au abordări diferite, iar o schemă care funcționează bine cu pachetele mici poate să nu funcționeze bine cu cele mari În special, atunci când transmiteți pachete mici, puteți îmbunătăți considerabil performanța prin accelerarea căutării adresei țintă în tabel, în timp ce, în același timp, atunci când transmiteți pachete mari, acest lucru nu va oferi o creștere vizibilă a performanței Cea mai directă modalitate de a îmbunătăți performanța este creșterea frecvenței de ceas a procesorului de rețea Adevărat, performanța nu crește proporțional cu frecvența, deoarece timpul de acces la memorie și o serie de alți factori afectează În plus, o frecvență mai mare înseamnă că trebuie disipată mai multă căldură De obicei, soluția este creșterea numărului de controlere PPE - această abordare este eficientă în special pentru arhitecturile paralele Creșterea lungimii conductei poate ajuta, de asemenea, dar numai dacă este posibilă împărțirea procesului de procesare a unui pachet în pași destul de simpli O altă abordare este creșterea numărului de procesoare suplimentare specifice aplicației sau de circuite integrate specifice aplicației dedicate anumitor operațiuni costisitoare și solicitate frecvent, dacă astfel de operațiuni sunt efectuate mai eficient în hardware Printre multi Capitolul Arhitecturi de calculatoare paralele candidații includ căutări în tabele, sume de verificare și operațiuni criptografice De asemenea, puteți crește viteza prin reducerea timpului de tranzit al pachetelor în sistem prin introducerea de autobuze suplimentare și creșterea numărului de linii în cele existente În cele din urmă, câștigurile de performanță pot fi obținute de obicei prin înlocuirea cipurilor de memorie (SRAM în loc de SDRAM), dar acest lucru, desigur, afectează costul Desigur, acest lucru nu este tot ce se poate spune despre procesoarele de rețea Pentru mai multe informații, vezi [ , , , ] procesoare multimedia Un alt domeniu de aplicare a coprocesoarelor este procesarea imaginilor fotografice de înaltă rezoluție, precum și a fluxurilor audio și video De obicei, procesorul nu este suficient de bun atunci când aceste aplicații trebuie să efectueze calcule complexe pe cantități mari de date Din acest motiv, unele calculatoare personale moderne și majoritatea modelelor aflate în curs de dezvoltare sunt echipate cu coprocesoare speciale pentru procesarea informațiilor multimedia, pe care poate fi deplasată o parte semnificativă a muncii procesoare multimedia Nexiperia Vom studia zona de procesare a informațiilor multimedia, a cărei importanță este în continuă creștere, folosind exemplul procesoarelor Nexiperia fabricate de Philips - aceasta este o familie de microcircuite pentru diferite frecvențe de ceas Nexiperia este un multiprocesor eterogen autonom cu un singur cip (vezi, de exemplu, procesorul din Figura ) Conține mai multe nuclee, inclusiv procesorul de control TriMedia VLIW și nuclee separate pentru operațiuni de imagine, audio, video și rețea Nexiperia poate fi folosit și ca procesor de sine stătător pentru CD, DVD, player MP , receptor TV, cameră foto sau video etc În plus, poate juca rolul unui coprocesor conceput pentru a procesa imagini și fluxuri multimedia ca parte a unui proces personal calculator În orice configurație, procesorul Nexiperia rulează propriul sistem de operare miniatural în timp real Nexiperia rezolvă trei probleme: capturarea datelor de intrare și convertirea lor în structuri de memorie, procesarea acestor structuri și, în final, scoaterea datelor într-o formă potrivită pentru dispozitivele conectate De exemplu, atunci când un computer este utilizat ca DVD player, co-procesorul Nexiperia poate fi programat să citească un flux video comprimat codificat de pe un DVD, să îl decodifice, să îl decomprimați și să îl scoată la dimensionarea imaginii pentru a se potrivi cu ieșirea fereastră Odată ce software-ul playerului DVD este încărcat în Nexiperia, totul se întâmplă în fundal, fără a fi nevoie de un procesor Toate datele primite sunt mai întâi stocate în memorie pentru procesare, adică nu există o legătură directă între sursele și receptorii de informații Captura de intrare se referă la decodarea videoclipurilor coprocesoare dimensiuni și formate (inclusiv MPEG- , MPEG- și MPEG- ) și audio (inclusiv AAC, Dolby și MP ), precum și stocarea datelor decodificate ca structuri adecvate în memorie pentru ieșirea și procesarea ulterioară Datele de intrare pot veni de la magistrala PCI, de la o rețea Ethernet sau printr-o intrare specială (când un microfon sau un sistem stereo este conectat direct la cip) Cipul Nexiperia are de pini, dintre care unii vă permit să primiți și să transmiteți direct fluxuri multimedia (și altele) Prelucrarea datelor este controlată de procesorul central TriMedia, care poate fi programat pentru orice sarcină Sarcinile tipice sunt îmbunătățirea clarității, luminozității, contrastului și reproducerii culorilor, scalarea imaginii, conversia formatului video, reducerea zgomotului În mod obișnuit, procesorul acționează ca un antreprenor general, delegând cea mai mare parte a muncii unor nuclee specializate de microcipuri Funcțiile de ieșire includ conversia structurilor de date într-o formă potrivită pentru dispozitive de recepție, combinarea mai multor surse de date (video, audio, imagini, grafică D) și gestionarea dispozitivelor de ieșire Pe lângă intrarea datelor, ieșirea poate fi prin magistrala PCI, o rețea Ethernet sau fire separate (conectate la difuzoare sau la un amplificator, de exemplu) Schema bloc a procesorului PNX din familia Nexiperia este prezentată în fig Alte procesoare din această familie sunt ușor diferite, așa că în viitor, sub numele Nexiperia, vom înțelege procesorul PNX Procesorul PNX are patru secțiuni principale responsabile de control, intrare, procesare și ieșire Rolul procesorului central este jucat de un procesor TriMedia VLIW pe de biți care funcționează la o frecvență de MHz Funcționalitatea procesorului este definită de un program, de obicei scris în C sau C++ În afară de două cache-uri în procesorul TriMedia, nu există memorie pe cipul Nexiperia În schimb, există o interfață pentru conectarea de la la MB de memorie DDR SDRAM - o memorie destul de comună pentru aplicațiile multimedia La o frecvență de ceas de MHz, lățimea de bandă a memoriei este de , Gb/s Pe lângă interfața de memorie, cipul este echipat cu o interfață PCI cu funcții complete pentru , și de biți și o frecvență de MHz Când funcționează ca procesor principal în interiorul unui dispozitiv electronic, interfața PCI poate acționa ca un arbitru de magistrală Această interfață poate fi utilizată, de exemplu, pentru a interacționa cu o unitate DVD Conectivitatea Ethernet directă este asigurată de un nucleu dedicat care gestionează conexiuni Ethernet de și Mbps În consecință, o cameră video bazată pe procesorul Nexiperia poate difuza direct un flux video digital prin Ethernet către un dispozitiv de înregistrare sau ieșire video de la distanță Următorul nucleu este responsabil pentru încărcare, resetare, sincronizare și alte câteva funcții Dacă se primește un semnal pe un anumit pin, se inițiază o resetare a procesorului Nucleul poate fi programat și ca temporizator de supraveghere, permițându-i să inițieze o repornire a procesorului dacă nu răspunde într-un interval de timp stabilit Dispozitivele autonome pot reporni din memoria flash Capitolul Arhitecturi de calculatoare paralele Orez Multiprocesor heterogen Nexiperia cu un singur cip Nucleul este condus de un oscilator cu cristal de MHz, care este înmulțit cu pentru a produce un semnal de , GHz care este utilizat în întregul procesor În mod obișnuit, procesorul funcționează la viteză maximă, iar restul componentelor funcționează la orice viteză de care au nevoie pentru a-și îndeplini sarcinile Pentru a economisi energie, este posibilă reducerea frecvenței În plus, există un mod de repaus în care majoritatea funcțiilor sunt dezactivate - acest lucru vă permite să economisiți energia bateriei pe dispozitivele mobile atunci când sunt inactiv Acest nucleu are și "semafore" care pot fi folosite pentru sincronizarea dispozitivelor Când unui semafor care are o valoare zero i se atribuie un număr diferit de zero de către nucleu, scrierea reușește, în caz contrar, scrierea eșuează și vechea valoare a semaforului rămâne neschimbată Scrierea zero reușește întotdeauna Deoarece doar unul dintre nuclee poate folosi magistrala la un moment dat, operațiunile de scriere sunt atomice, iar semaforele oferă tot ceea ce este necesar pentru a împiedica mai multe nuclee să folosească magistrala în același timp Pentru a accesa o resursă, nucleul încearcă să scrie o valoare non-nulă la un anumit semafor Dacă scrierea are succes, atunci kernel-ul preia accesul la dispozitiv, pentru a elibera care zero este scris pe semafor Dacă capturarea eșuează, nucleul reîncearcă periodic Astfel, aceste semafoare sunt oarecum diferite de semaforele clasice discutate în Capitolul coprocesoare Să trecem la secțiunea de introducere Miezul de intrare video primește un flux video digital de biți, îl convertește în biți folosind un algoritm de anti-aliasing și îl scrie într-o memorie SDRAM externă În cele mai multe cazuri, fluxul video digital de intrare este semnalul de ieșire al unui convertor extern analog-digital, care este alimentat cu un semnal de televiziune analogic, terestru sau prin cablu Nucleul de intrare de bază vă permite să capturați date nestructurate pe de biți dintr-o sursă arbitrară și să le stocați în memoria SDRAM Frecvența magistralei este de MHz În plus, nucleul poate captura date structurate cu etichete care indică limitele înregistrărilor Routerul care precede cele două nuclee de intrare video separă semnalul de intrare și poate efectua, de asemenea, unele conversii video din mers Separarea este necesară deoarece aceiași pini externi sunt utilizați atât pentru intrarea video, cât și pentru intrarea de bază Nucleul de intrare audio este capabil să capteze până la canale de muzică stereo sau voce la digitizare pe , sau de biți la până la kHz și să stocheze datele audio în memoria SDRAM În plus, nucleul poate decomprima formate comprimate, poate amesteca canale, poate modifica rata de eșantionare și poate aplica filtre din mers înainte de a salva datele audio Nucleul de intrare digitală SP vă permite să primiți un semnal audio digital care respectă standardele Sony-Philips (IEC ) Un semnal audio digital poate fi transferat de la un dispozitiv la altul fără pierderi de calitate De obicei, după ce sunt primite date audio, video sau orice alte date, acestea trebuie procesate, ceea ce este responsabilitatea următoarei secțiuni a procesorului Filmele DVD sunt criptate pentru protecție împotriva copierii Decodorul DVD efectuează decodarea pentru a obține videoclipul original MPEG- Decriptarea este o operație de la memorie la memorie în care intrarea provine dintr-un buffer și rezultatul este scris în altul Decodorul de lungime continuă decodarea începută de nucleul anterior, evitând efectele codificării cu lungime variabilă a cuvântului care este comună cu MPEG- (și MPEG- ) Ca rezultat, este posibil să se obțină date pe jumătate decomprimate, care sunt apoi transferate în nucleul de procesare în format MPEG (în TriMedia este implementat în software), unde are loc decodarea finală Motivul acestei separări este că procesul de decodare cu lungime variabilă a cuvintelor (bazat pe decodarea Huffman și decodificarea grupurilor) nu utilizează capabilitățile TriMedia foarte eficient, așa că a fost considerat rezonabil să cheltuiți câțiva milimetri pătrați de siliciu pentru implementarea hardware a acest algoritm Ca rezultat, aceste două operații fac posibilă obținerea unei hărți complete de pixeli în memorie O hartă de pixeli poate fi prezentată în unul dintre cele trei formate principale, fiecare dintre ele având trei sau patru opțiuni care diferă ca parametri Primul format, numit culoare indexată, utilizează un tabel de căutare a culorilor (CLUT) Direct în acest tabel sunt stocate valori de culoare pe de biți, completate de o mască de canal alfa de biți În formatul RGB în care funcționează monitorul, intensitățile canalelor roșu, verde și albastru sunt indicate separat Capitolul Arhitecturi de calculatoare paralele culorile Formatul YUV corespunde modului în care sunt codificate semnalele de televiziune În acest format, în loc să codifice direct componentele roșii, verzi și albastre, se face o conversie în cameră, rezultând un canal de luminanță și două canale de crominanță Sistemul permite alocarea unei mari părți a lățimii de bandă canalului de luminanță, ceea ce oferă o rezistență mai bună la zgomotul de transmisie Formatul YUV are sens să fie utilizat în aplicații legate de semnalul de televiziune și televiziune Datorită faptului că imaginea este prezentată în doar câteva formate cu variantele lor, fiecare dintre nucleele procesorului "înțelege" rezultatele muncii altor nuclee Motorul de scalare video, cu o viteză maximă de megapixeli pe secundă, primește și execută sarcini de scalare, printre care se numără: ♦ eliminarea efectului "pieptene"; ♦ scalare orizontală și verticală; ♦ transformare liniară și neliniară a dimensiunii cadrului; ♦ conversie între diferite formate de culoare; ♦ construirea unei histograme de luminozitate; ♦ eliminarea pâlpâirii În televiziunea difuzată, așa-numitul efect "pieptene" apare la digitizarea unui semnal de televiziune analogică, când pentru fiecare cadru format din de linii ( pentru formatele PAL și SECAM), sunt transmise mai întâi toate liniile pare și apoi toate imparele După eliminarea efectului "pieptene", se obține o imagine de scanare progresivă mai bună (scanare progresivă) atunci când liniile sunt transmise sau procesate în ordinea lor adevărată, iar rata de cadre este de două ori mai mare ( , fps pentru NTSC și fps pentru PAL și SECAM) decât cu scanarea intercalată Prin scalarea orizontală și verticală, puteți reduce sau mări dimensiunea imaginii, eventual după tăiere Televizorul standard folosește un cadru cu un raport lățime/înălțime de / , în timp ce televizorul cu ecran lat folosește un raport de cadru de / , care se potrivește mai bine cu raportul de / al unui cadru de film de mm Nucleul de scalare vă permite să schimbați formatul cadrului conform unui algoritm liniar sau neliniar În plus, poate converti diferite formate de culoare (culori indexate, RGB și YUV) între ele, precum și poate construi o histogramă de luminozitate, care poate fi utilă pentru îmbunătățirea calității imaginii de ieșire În cele din urmă, anumite conversii pot fi efectuate pentru a elimina pâlpâirea Motorul de procesare grafică construiește imagini ale obiectelor bidimensionale conform descrierilor acestora În plus, poate umple zonele închise cu culoare și poate efectua operații grafice bitblt, care se rezumă la faptul că hărțile de pixeli corespunzătoare sunt combinate folosind AND, OR, XOR sau alte funcții booleene coprocesoare Nu există nuclee separate pentru procesarea datelor audio Sunt necesare atât de puține date pentru a stoca sunetul, încât acesta poate fi procesat de software, ceea ce se întâmplă în procesorul TriMedia De asemenea, multe aplicații nu trebuie deloc să proceseze sunetul, cu excepția, poate, a modificărilor de format Nucleul de depanare este conceput pentru a ajuta dezvoltatorii să depaneze software-ul și hardware-ul procesorului Acest nucleu oferă o interfață cu facilitățile JTAG (Joint Test Action Group) așa cum sunt definite în standardul IEEE Secțiunea de ieșire este responsabilă pentru citirea datelor procesate din memorie și scoaterea lor Nucleul video compozit normalizează și combină una sau mai multe structuri de date pixeli înainte de ieșire Culorile indexate sunt "de-indexate" în pixeli reali din mers, iar pentru formatele incompatibile, motorul video compozit realizează o pre-conversie În plus, acest nucleu realizează corectarea luminozității și contrastului dacă este necesar, acceptă funcția cheie cromatică, atunci când imaginea unui actor filmată pe un fundal albastru uniform este apoi separată de fundal și plasată deasupra unei scene preluate dintr-o altă sursă În mod similar, puteți crea o animație în care un personaj animat din prim-plan se mișcă pe un fundal staționar sau cu derulare uniformă Rezultatul final al nucleului, desigur, este convertit în formatul video sau de televiziune necesar (NTSC, PAL sau SECAM), incluzând, printre altele, impulsuri de sincronizare verticale și orizontale Este de așteptat ca majoritatea sistemelor bazate pe procesorul Nexiperia să poată recunoaște automat toate cele trei formate de televiziune, deoarece nu există costuri suplimentare pentru aceasta, iar dispozitivele pot fi vândute în toată lumea fără modificări În mod similar, suportul pentru televiziunea de înaltă definiție (High Definition TeleVision, HDTV) necesită doar o ușoară complicație a codului programului, care trebuie să convertească datele video în structuri de memorie și invers Nucleul de ieșire de bază transferă date doar la , sau de biți pe ciclu la MHz, rezultând un debit maxim de , Gbps Conectând ieșirea unui procesor Nexiperia la intrarea altuia, puteți transfera fișiere între ele la o viteză mai mare decât o permite Gigabit Ethernet ( Gb/s) În plus, pe această interfață, procesorul central poate genera programatic orice semnale necesare Routerul de ieșire determină care dintre cele două nuclee de ieșire ar trebui să fie transmisă la pinii procesorului și poate efectua, de asemenea, unele acțiuni suplimentare Acestea includ o rată de reîmprospătare de Hz pentru panourile TFT de până la x pixeli, precum și imagini TV întrețesate sau cu scanare progresivă Nucleul de ieșire audio poate genera până la canale stereo de audio cu precizie de de biți și frecvență de eșantionare de până la kHz De obicei, această ieșire comandă un convertor extern digital-analogic Ieșirea digitală SP poate fi conectată la dispozitive care acceptă standardul audio digital Sony-Philips Capitolul Arhitecturi de calculatoare paralele Ultimul nucleu rămas este responsabil pentru intrarea și ieșirea semnalelor de uz general Cei pini ai acestui nucleu pot fi folosiți în orice scop, de exemplu, pot fi conectați la butoane, întrerupătoare, LED-uri și pot lucra programatic cu ele În plus, acești pini pot fi utilizați pentru protocoale de rețea de viteză medie ( MB/s) controlate de software De asemenea, în acest nucleu există diverse cronometre, contoare și handlere de evenimente În general, putem spune că procesorul Nexiperia are o putere de procesare uriașă pentru aplicațiile audiovizuale și, la fel ca procesoarele de rețea, poate lua o parte semnificativă din sarcina procesorului Puterea de procesare a acestui coprocesor este chiar mai mare decât pare la prima vedere, deoarece toate nucleele pot funcționa simultan între ele și cu procesorul central După ce am studiat Nexiperia, capacitățile coprocesoarelor, în special cele bazate pe cipuri multiprocesoare eterogene, devin mai ușor de înțeles Un procesor similar, dar concentrat nu pe multimedia, ci pe telefonie, este considerat în [ ] Procesoare cripto Securitatea, și în special securitatea rețelei, este un alt domeniu (deja al treilea) în care coprocesoarele sunt utilizate pe scară largă Când se stabilește o conexiune între un client și un server, acestea necesită de obicei autentificare reciprocă Folosind o conexiune sigură (criptată) stabilită în acest fel, puteți transfera date în siguranță și nu vă gândiți la intrușii care ascultă linia Problema aici este că securitatea este asigurată prin intermediul criptografiei, iar această zonă necesită calcule foarte voluminoase În criptografie, două abordări principale ale protecției datelor sunt acum comune: criptarea cheii simetrice și criptarea cheii publice Primul se bazează pe o amestecare foarte minuțioasă a biților (ca și cum mesajul ar fi plasat într-un fel de mixer electronic) A doua abordare se bazează pe înmulțirea și exponențiarea numerelor mari ( de biți), care este extrem de consumatoare de timp Multe companii au lansat coprocesoare criptografice care permit ca datele să fie criptate pentru transmisie sigură și apoi decriptate Adesea sunt plăci de expansiune introduse în slotul PCI Datorită hardware-ului special, aceste procesoare pot efectua calculele criptografice necesare mult mai rapid decât unitatea centrală de procesare Din păcate, un studiu mai detaliat al procesoarelor criptografice ar necesita mult timp pentru criptografia în sine, ceea ce depășește scopul acestei cărți Informații suplimentare pot fi găsite în [ , ] Multiprocesoare Ne-am dat seama cum să introducem paralelismul într-un sistem uniprocesor prin adăugarea unui coprocesor la acesta Următorul pas este să combinați mai multe procesoare cu drepturi depline într-un singur sistem mare Astfel de sisteme cu mai multe centrale Multiprocesoare procesoarele pot fi împărțite în multiprocesoare și multicalculatoare În primul rând, după ce am înțeles sensul acestor termeni, vom studia multiprocesoarele, iar după ele - multicomputere Multiprocesoare și multicalculatoare În orice sistem computerizat paralel, procesoarele care efectuează diferite părți ale unei singure sarcini trebuie cumva să interacționeze între ele pentru a face schimb de informații Cum ar trebui să aibă loc mai exact schimbul? Pentru aceasta, au fost propuse și implementate două strategii: multiprocesoare și multicalculatoare Diferența cheie dintre strategii este prezența sau absența memoriei partajate Această diferență afectează atât proiectarea, proiectarea și programarea unor astfel de sisteme, cât și costul și dimensiunea acestora Multiprocesoare Un computer paralel în care toate procesoarele au o memorie fizică comună se numește multiprocesor sau sistem de memorie partajată (Figura a) Toate procesele care lucrează împreună într-un multiprocesor pot avea un singur spațiu de adrese virtuale mapat la o memorie partajată Orice proces care utilizează comenzile LOAD și STORE poate citi un cuvânt din memorie sau poate scrie un cuvânt în memorie Nimic altceva nu este necesar Două procese au capacitatea de a schimba cu ușurință informații - pentru aceasta, unul dintre ele pur și simplu scrie date în memoria partajată, iar celălalt le citește Orez Multiprocesor cu procesoare care partajează memorie (a); imagine împărțită în secțiuni, fiecare dintre ele analizată de un procesor separat (b) Datorită posibilității de interacțiune între două sau mai multe procese, multiprocesoarele sunt foarte populare Acest model este de înțeles programatorilor și permite rezolvarea unei game largi de probleme De exemplu, luați în considerare un program care analizează un bitmap și listează toate obiectele sale O copie a imaginii este stocată în memorie, așa cum se arată în Fig b Fiecare dintre cele procesoare rulează un proces, conceput pentru a analiza una dintre cele secțiuni Dacă un proces detectează că unul dintre obiectele sale trece prin Capitolul Arhitecturi de calculatoare paralele secțiunea, acest proces pur și simplu urmărește obiectul în secțiunea următoare, citind cuvintele acestei secțiuni În exemplul nostru, unele obiecte sunt procesate prin mai multe procese, așa că va fi necesară o anumită coordonare la sfârșit pentru a determina numărul de case, copaci și avioane Deoarece toate procesoarele dintr-un multiprocesor folosesc același spațiu de adrese, rulează o singură copie a sistemului de operare În consecință, există o singură hartă a paginii de memorie și un tabel de proces Când un proces se blochează, procesorul său își salvează starea în tabelele sistemului de operare și apoi caută în acele tabele un alt proces pentru a rula Această organizație, care se bazează pe un singur sistem, este cea care distinge un multiprocesor de un multicomputer Multiprocesorul, ca toate computerele, trebuie să conțină dispozitive de intrare-ieșire (discuri, adaptoare de rețea etc ) În unele sisteme multiprocesor, doar anumite procesoare au acces la dispozitivele I/O și, prin urmare, au facilități speciale de I/O În alte sisteme multiprocesor, fiecare procesor poate accesa orice dispozitiv I/O Dacă toate procesoarele au acces egal la toate modulele de memorie și la toate dispozitivele I/O și este posibilă interschimbabilitatea completă între procesoare, un astfel de multiprocesor se numește simetric (Symmetric MultiProcessor, SMP) Multicalculatoare În cea de-a doua versiune a arhitecturii paralele, fiecare procesor are propria sa memorie disponibilă doar pentru acest procesor O astfel de schemă se numește multicomputer sau sistem de memorie distribuită (Fig , a) Diferența cheie dintre un multicomputer și un multiprocesor este că fiecare procesor dintr-un multicomputer are propria sa memorie locală, pe care acest procesor o poate accesa executând instrucțiunile LOAD și STORE, dar niciun alt procesor nu poate accesa memoria locală a acestui procesor folosind aceste instrucțiuni Astfel, multiprocesoarele au un spațiu de adrese fizice partajat de toate procesoarele, în timp ce multicalculatoarele au spații de adrese fizice separate pentru fiecare procesor Deoarece procesoarele dintr-un multicomputer nu pot comunica între ele prin simple accese la memoria partajată, procesoarele fac schimb de mesaje prin intermediul rețelei de comunicații care le leagă Exemple de multicomputere includ IBM BlueGene/L, Red Storm și clusterul Google În absența memoriei partajate implementată în hardware, se presupune o anumită structură software Într-un multicomputer, este imposibil să existe un singur spațiu de adrese virtuale pentru toate procesoarele care să permită citirea și scrierea informațiilor cu comenzi LOAD și STORE De exemplu, dacă procesorul din colțul din stânga sus al Fig b (să dăm acestui procesor numărul ) constată că o parte din obiectul său se încadrează într-o altă secțiune legată de următorul procesor (să fie procesorul ), pur și simplu poate continua să citească informații din memorie pentru a obține o imagine a cozii aeronave Totuși, dacă procesorul din Fig , b, Multiprocesoare nu poate citi pur și simplu informații din memoria procesorului În acest caz, algoritmul de achiziție a datelor trebuie să fie diferit Orez Multicomputer cu procesoare, fiecare cu memorie(i) proprie; bitmap al imaginii din fig împărțit între module de memorie (b) În primul rând, procesorul trebuie să afle cumva care procesor conține datele de care are nevoie și să trimită un mesaj acelui procesor solicitând o copie a datelor Procesorul se blochează apoi până când este primit un răspuns Când procesorul primește un mesaj, acesta este analizat de software, după care datele solicitate sunt trimise înapoi Când procesorul primește un mesaj de răspuns, blocarea este eliberată de software și procesorul continuă să ruleze Într-un multicomputer, primitivele de trimitere și recepție sunt adesea folosite pentru a comunica între procesoare Prin urmare, software-ul multicomputer are o structură mai complexă decât software-ul multiprocesor În acest caz, principala problemă este distribuirea corectă a datelor și plasarea lor rezonabilă Aceasta este o altă diferență între un multicomputer și un multiprocesor, unde plasarea datelor nu afectează corectitudinea soluționării problemei, deși poate afecta performanța Pe scurt, un multicomputer este mult mai greu de programat decât un multiprocesor Apare întrebarea: de ce să creați mai multe computere, dacă multiprocesoarele sunt mult mai ușor de programat? Răspunsul este simplu: construirea unui multicomputer mare este mai ușoară și mai ieftină decât construirea unui multiprocesor cu același număr de procesoare Implementarea unei memorie partajată partajată de câteva sute de procesoare este o provocare, dar proiectarea unui multicomputer cu sau mai multe procesoare este destul de ușoară Mai târziu, în acest capitol, ne vom uita la un multicomputer cu mai mult de de procesoare Astfel, ne confruntăm cu o dilemă: multiprocesoarele sunt greu de proiectat, dar ușor de programat, iar multicalculatoarele sunt ușor de construit, dar Capitolul Arhitecturi de calculatoare paralele greu de programat Ca urmare, se încearcă în mod constant crearea de sisteme hibride Aceste încercări au condus la realizarea că memoria partajată poate fi implementată în moduri diferite, fiecare opțiune având avantaje și dezavantaje Aproape toate cercetările din domeniul arhitecturilor de computere paralele vizează crearea de forme hibride care să combină avantajele ambelor sisteme Aici este important să se obțină scalabilitate, adică să se dezvolte un sistem care va continua să funcționeze corect cu adăugarea a tot mai multe procesoare Una dintre abordări se bazează pe faptul că sistemele informatice moderne nu sunt monolitice, ci au o structură pe mai multe niveluri Acest lucru face posibilă implementarea memoriei partajate la oricare dintre mai multe niveluri, așa cum se arată în Fig Pe fig , și vedem memoria partajată implementată în hardware, ca într-un multiprocesor "adevărat" În această dezvoltare, există o copie a sistemului de operare cu un set de tabele, în special tabelul de alocare a memoriei Dacă un proces are nevoie de mai multă memorie, acesta întrerupe sistemul de operare, care apoi caută în tabel o pagină liberă și mapează pagina respectivă la spațiul de adrese al procesului apelant În ceea ce privește sistemul de operare, există o singură memorie, iar sistemul de operare ține evidența ce pagină aparține cărui proces Există multe modalități de implementare a memoriei partajate în hardware A doua abordare este utilizarea hardware-ului multicomputer și a unui sistem de operare care va modela memoria partajată prin furnizarea unui singur spațiu de adrese virtuale paginat Cu această abordare, obținem o memorie distribuită partajată (DSM), în care fiecare pagină este situată într-unul dintre modulele de memorie (vezi Fig , a), iar fiecare mașină conține propria sa memorie virtuală și propriile tabele de pagini [ ] Dacă procesorul execută o instrucțiune LOAD sau STORE în timp ce accesează o pagină pe care nu o are, apare o excepție de sistem Sistemul de operare găsește apoi pagina dorită și apelează procesorul corespunzător pentru a descărca pagina din memorie și a o trimite prin rețeaua internă de comunicații prin care procesoarele fac schimb de mesaje Când pagina ajunge la procesul de primire, este mapată în memorie și execuția comenzii întrerupte se reia În esență, sistemul de operare pur și simplu primește paginile lipsă nu de pe disc, ci din memorie Acest lucru dă utilizatorului impresia că aparatul are o singură memorie partajată Vom reveni la memoria partajată distribuită mai târziu în acest capitol A treia abordare este implementarea memoriei partajate în software de către un sistem de utilizator în timp real Cu această abordare, limbajul de programare creează o abstracție a memoriei partajate, iar această abstracție este implementată de compilator (adică modelul de memorie partajată poate depinde de limbajul de programare utilizat) De exemplu, modelul Linda se bazează pe abstractizarea unui spațiu comun de tupluri (înregistrări de date care conțin seturi de câmpuri) Procesele de pe orice mașină pot lua un tuplu din spațiul partajat sau îl pot trimite în spațiul partajat Deoarece accesul la acest spațiu este controlat complet de software (sistemul în timp real Linda), nu este necesar nici un suport hardware special sau un sistem de operare special Procesoare multiple Mașina Mașina Mașina Mașina Mașina Masina Aplicație Aplicație Aplicație Aplicație Aplicație Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem de operare Sistem de operare Sistem de operare Sistem de operare Sistem de operare Sistem de operare Hardware Hardware Hardware Hardware Hardware Hardware Memorie partajată Memoria partajată Memoria partajată a B C Orez Niveluri la care poate fi implementată memoria partajată: implementare hardware (a); sistemul de operare (b); implementare software (c) Un alt exemplu de memorie partajată implementat de un sistem personalizat în timp real este Modelul obiectelor de date partajate în sistemul Orcs În modelul Ogsa, procesele nu împărtășesc tupluri, ca în Linda, ci obiecte de bază apelând metode pe ele Dacă o metodă modifică starea internă a unui obiect, sistemul în timp real trebuie să se asigure că toate copiile acelui obiect de pe toate mașinile sunt modificate în același timp Din nou, deoarece obiectele sunt un concept pur software, ele pot fi implementate folosind un sistem în timp real fără intervenția sistemului de operare sau a hardware-ului Vom reveni la modelele Linda și Ogs mai târziu în acest capitol Clasificarea sistemelor informatice paralele Se pot spune multe despre software-ul pentru sisteme informatice paralele, dar acum trebuie să revenim la subiectul principal al acestui capitol - arhitectura unor astfel de sisteme De-a lungul anilor au fost propuse și construite multe tipuri de sisteme de calcul paralele, așa că aș dori să le clasific cumva Mulți cercetători au încercat să facă acest lucru cu rezultate diferite [ , ], dar, din păcate, încă nu există o clasificare bună Clasificarea lui Flynn [ ] este folosită cel mai des, dar chiar și ea este destul de grosieră (Tabelul ) Capitolul Arhitecturi de calculatoare paralele Tabelul - - Clasificarea Flynn a sistemelor computerizate paralele Fluxuri de comandă Fluxuri de date Exemple de categorii SISD Mașină clasică von Neumann lot SIMD Vector supercalculator, procesor matrice Multe MISD Nu există Multe Multe MIMD Multiprocesor, multicomputer Clasificarea se bazează pe conceptele de fluxuri de comandă și fluxuri de date Fluxul de instrucțiuni corespunde contorului de instrucțiuni Un sistem cu n procesoare are n contoare de programe și, prin urmare, n fluxuri de instrucțiuni Fluxul de date este format dintr-un set de operanzi Fluxurile de comandă și de date sunt oarecum independente, deci există combinații de astfel de fluxuri (vezi Tabelul ) SISD (Single Instruction stream Single Data stream - un flux de instrucțiuni cu un flux de date) este arhitectura clasică a computerelor seriale von Neumann Un computer von Neumann are un flux de instrucțiuni și un flux de date și poate efectua o singură acțiune la un moment dat Mașinile aparținând categoriei SIMD (Single Instruction-stream Multiple Data-stream - one instruction stream with multiple data streams) au o unitate de control care emite câte o instrucțiune la un moment dat, dar există mai multe ALU-uri care pot procesa mai multe seturi de date la acelasi timp Prototipul mașinilor SIMD este procesorul ILLIAC IV (vezi Figura ) Deși aparatele SIMD nu sunt utilizate pe scară largă, unele computere convenționale folosesc instrucțiuni SIMD pentru a procesa date multimedia Instrucțiunile SSE din procesoarele Pentium sunt clasificate ca instrucțiuni SIMD În orice caz, există un domeniu în care ideile culese din "lumea SIMD" ies în prim-plan, și anume procesoarele de flux Procesoarele de flux sunt proiectate special pentru procesarea multimedia și pot juca un rol important în viitor [ ] MISD (Multiple Instruction-stream Single Data-stream - mai multe fluxuri de instrucțiuni cu un singur flux de date) este o categorie destul de ciudată Aici, mai multe comenzi operează pe același set de date Este dificil de spus dacă există astfel de mașini, deși unii cataloghează mașinile cu transportoare drept MISD Ultima categorie este MIMD (Multiple Instruction-stream Multiple Data-stream - fluxuri de instrucțiuni multiple cu fluxuri de date multiple) Aici, mai multe procesoare independente funcționează ca parte a unui sistem mai mare Majoritatea procesoarelor paralele se încadrează în această categorie Atât multiprocesoarele, cât și multicalculatoarele sunt mașini MIMD Am extins clasificarea lui Flynn (Figura ) Aparatele noastre SIMD sunt împărțite în două subgrupe Primul subgrup include numeroase supercalculatoare și alte mașini care funcționează pe vectori, efectuând aceeași operație pe fiecare element al vectorului Al doilea subgrup include mașini de tip ILLIAC IV, în care unitatea principală de control trimite comenzi către mai multe ALU independente Multiprocesoare Mesaje cu memorie partajată Orez Clasificarea calculatoarelor paralele În clasificarea noastră, categoria MIMD s-a împărțit în multiprocesoare (mașini cu memorie partajată) și multicalculatoare (mașini de mesagerie) Există trei tipuri de multiprocesoare Ele diferă unele de altele prin mecanismul de acces la memoria partajată și se numesc UMA (Acces uniform la acces uniform la memorie), NUMA (Acces non-uniform la acces la memorie neuniformă) și COMA (Acces numai cache la memoria cache) Această subcategorizare are sens deoarece multiprocesoarele mari împart memoria în mai multe module În mașinile UMA, fiecare procesor are același timp de acces la orice modul de memorie Cu alte cuvinte, fiecare cuvânt poate fi citit din memorie în același ritm ca orice alt cuvânt Dacă acest lucru nu este posibil din punct de vedere tehnic, cele mai rapide accesări sunt încetinite pentru a se potrivi cu cele mai lente, astfel încât programatorul nu va observa nicio diferență Asta înseamnă acces "omogen" Această uniformitate face performanța previzibilă, iar acest factor este foarte important pentru crearea de programe eficiente O mașină NUMA, pe de altă parte, nu are proprietatea de uniformitate De obicei, fiecare procesor are unul dintre modulele de memorie care se află mai aproape de el decât celelalte, astfel încât accesul la acest modul de memorie este mult mai rapid decât altele În acest caz, din punct de vedere al performanței, unde ajung programul și datele este foarte important Accesul la aparatele SOMA se dovedește, de asemenea, a fi eterogen, dar dintr-un motiv diferit Ne vom uita la fiecare dintre opțiuni mai detaliat mai târziu, când vom studia subcategoriile corespunzătoare Capitolul Arhitecturi de calculatoare paralele A doua categorie principală de mașini MIMD este multicalculatoare, care, spre deosebire de multiprocesoare, nu partajează memoria la nivel arhitectural Cu alte cuvinte, sistemul de operare al unui procesor dintr-un multicomputer nu poate accesa memoria altui procesor prin simpla lansare a unei comenzi LOAD Procesorul va trebui să trimită un mesaj și să aștepte un răspuns Este capacitatea sistemului de operare de a citi un cuvânt dintr-un modul de memorie de la distanță folosind instrucțiunea LOAD care distinge multiprocesoarele de multicomputere După cum am observat deja, deși chiar și într-un multicomputer programele de utilizator pot accesa alte module de memorie folosind comenzile LOAD și STORE, această capacitate nu este suportată de hardware, sistemul de operare creează iluzia Diferența este minoră, dar foarte importantă Deoarece multicomputerele nu au acces direct la modulele de memorie la distanță, acestea sunt uneori clasificate ca NORMA (NO Remote Memory Access - fără acces la memorie la distanță) Multicalculatoarele pot fi, de asemenea, împărțite în două categorii suplimentare Categoria MPP (Massively Parallel Processor) include supercalculatoare scumpe care constau dintr-un număr mare de procesoare conectate printr-o rețea de comunicații internă de mare viteză Un exemplu comercial binecunoscut este supercalculatorul IBM SP/ A doua categorie de multicalculatoare include computerele personale convenționale sau stațiile de lucru (uneori montate în rafturi) care comunică în conformitate cu unele tehnologii de comunicații comerciale Din punct de vedere logic, nu există nicio diferență fundamentală aici, dar un supercomputer puternic în valoare de milioane de dolari este cu siguranță folosit diferit decât o rețea de calculatoare asamblată de utilizatorii finali, care este de multe ori mai ieftină decât orice mașină MPP Aceste sisteme "de origine" sunt uneori denumite rețele de stații de lucru (Network Of Work-stations, NOW), clustere de stații de lucru (Cluster Of Workstations, COW) sau pur și simplu clustere (cluster) Semantica memoriei Deși toate multiprocesoarele oferă procesoarelor o imagine a unui spațiu comun de adresă unică, adesea există multe module de memorie împreună cu acesta, fiecare dintre ele stochează o parte din memorie fizică Procesoarele și modulele de memorie sunt conectate printr-o rețea de comunicații complexă (vom vorbi despre aceasta în subsecțiunea "Rețele de comunicații" a secțiunii "Multicomputere") Mai multe procesoare pot încerca să citească un cuvânt din memorie în același timp în care alți procesoare încearcă să-l scrie; este posibil ca mesajele să nu fie livrate în ordinea în care au fost trimise La aceste probleme se adaugă existența mai multor copii ale unor fragmente de memorie (de exemplu, în memoria cache), și ca urmare vom ajunge în haos dacă nu luăm contramăsuri serioase În această subsecțiune, vom explora ce este cu adevărat memoria partajată și cum modulele de memorie pot fi utilizate cu înțelepciune în aceste circumstanțe Multiprocesoare Semantica memoriei poate fi privită ca un contract între software-ul de memorie și hardware [ ] Dacă software-ul este de acord să respecte anumite reguli, atunci memoria este de acord să producă anumite rezultate Principala problemă aici sunt regulile în sine, care se numesc modele de consistență Multe astfel de reguli au fost propuse și dezvoltate Pentru a vă face o idee despre problemă, să presupunem că procesorul scrie valoarea într-un cuvânt de memorie, iar puțin mai târziu procesorul scrie valoarea în același cuvânt Procesorul citește acest cuvânt și primește valoarea Ar trebui atunci proprietarul computerului să contacteze biroul de reparații? Depinde de ceea ce este promis în contract Solvabilitate strictă Cel mai simplu model este modelul de consistență strictă Într-un astfel de model, orice citire de la adresa x returnează întotdeauna valoarea celei mai recente intrări din x Programatorilor le place foarte mult acest model, dar poate fi pus în practică doar în felul următor: ar trebui să existe un singur modul de memorie care să servească pur și simplu toate cererile pe măsură ce intră (primul intrat, primul ieșit), stocarea în cache și duplicarea datelor nu sunt permis Din păcate, această abordare ar încetini semnificativ memoria, așa că cu greu poate fi considerată o propunere serioasă Consistență secvențială În continuare, luăm în considerare modelul de consistență secvențială [ ] Conform acestui model, atunci când există multiple cereri de citire și scriere, ordinea de procesare a cererii este determinată de hardware, dar toți procesoarele percep aceeași ordine Luați în considerare un exemplu Să presupunem că procesorul scrie valoarea în cuvântul x, iar după ns procesorul scrie acolo valoarea Acum să presupunem că la ns după începerea celei de-a doua operațiuni de scriere (procesul de scriere nu s-a încheiat încă), alte două procesoare, și , citiți cuvântul x de două ori (Fig ) Opțiunile posibile pentru secvența a șase evenimente sunt prezentate în tabel Înregistrare procesor Orez Două procesoare scriu, iar celelalte două procesoare citesc același cuvânt din memoria partajată Capitolul Arhitecturi de calculatoare paralele Tabelul Opțiuni posibile pentru succesiunea evenimentelor conform Fig Opțiunea Opțiunea Opțiunea Scrieți valoarea Scrieți valoarea Scrieți valoarea Scrieți valoarea Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesor Scrieți valoarea Scrieți valoarea Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul În primul caz, ambele procesoare primesc valoarea în fiecare dintre cele două operații de citire În a doua opțiune, procesorul primește valorile și , iar procesorul primește de ambele ori În a treia opțiune, procesorul primește de două ori , iar procesorul primește valorile și Toate aceste opțiuni sunt valabile, precum și altele, care nu sunt afișate aici Memoria construită după modelul de consistență secvențială nu ar permite niciodată procesorului să obțină valorile și dacă procesorul ar primi valorile și Dacă acest lucru s-ar întâmpla, din punctul de vedere al procesorului , aceasta ar însemna că procesorul a scris valoarea finalizată înainte ca procesorul să scrie valoarea Acest lucru este complet posibil Dar din punctul de vedere al procesorului , aceasta înseamnă și că scrierea procesorului de s-a încheiat înainte de scrierea procesorului de Prin el însuși, acest rezultat este posibil, dar contrazice primul rezultat Consistența secvențială garantează o singură secvență globală (percepută de toate procesoarele) de operații de scriere Daca din punctul de vedere al procesorului se scrie prima valoarea , procesorul ar trebui sa "vada" la fel Deși regulile de consistență secvențială nu arată la fel de "crude" precum regulile de consistență strictă, acest model este și el foarte util Chiar dacă mai multe evenimente au loc în același timp, se consideră că ele se întâmplă de fapt într-o anumită ordine (care poate fi aleasă arbitrar), iar toți procesatorii percep această ordine Deși această stare de fapt pare evidentă, în cele ce urmează vom avea în vedere câteva modele de consistență care nu garantează o astfel de comandă Viabilitatea procesorului Consistența procesorului nu este un model foarte strict, dar este mai ușor de implementat pe multiprocesoare mari [ ] Are două proprietăți: Toate procesoarele văd operațiile de scriere ale oricărui procesor în ordinea în care sunt efectuate aceste operațiuni Toate procesoarele văd toate scrierile pe orice cuvânt de memorie în aceeași ordine Multiprocesoare Ambele puncte sunt foarte importante Primul paragraf spune că dacă procesorul începe să scrie valorile IA, ІВиІСв în orice loc din memorie în această ordine, atunci toate celelalte procesoare vor vedea aceste înregistrări în aceeași ordine Cu alte cuvinte, nu se va întâmpla niciodată ca vreun procesor să vadă mai întâi valoarea B și apoi valoarea IA Al doilea punct este să vă asigurați că fiecare cuvânt din memorie are o semnificație definită și neechivocă după ce procesorul a făcut mai multe scrieri pe acel cuvânt și apoi s-a oprit Toată lumea ar trebui să vadă aceeași ultima valoare Chiar și cu astfel de limitări, dezvoltatorul are o mulțime de opțiuni Să vedem ce se întâmplă dacă procesorul începe trei scrieri ale A, B și C simultan cu trei scrieri ale procesorului Alte procesoare care sunt ocupate să citească cuvinte din memorie vor vedea o secvență de șase scrieri, de exemplu, IA, B, A , B, IC, C sau A, IA, B, C, B, C; etc Cu consistența procesorului, nu este garantat că fiecare procesor vede aceeași ordine (spre deosebire de consistența secvențială) Este posibil ca unii procesoare să perceapă ordinea IA, B, A, B, IC, C, alții - A, IA, B, C, B, C și încă alții - o altă opțiune Singurul lucru care este absolut garantat este că niciun procesor nu va vedea secvența în care operația B este efectuată mai întâi și apoi IA Ordinea în care sunt executate accesările la același procesor rămâne aceeași pentru toți observatorii Solvabilitate slabă În modelul de consistență slabă, nu este garantat că operațiunile de scriere efectuate de un procesor vor fi percepute de alții în aceeași ordine [ ] Un procesor poate vedea mai întâi operațiunea IA, apoi B, celălalt - mai întâi B, apoi IA Pentru a aduce ordine în acest haos, trebuie să existe variabile de sincronizare a memoriei sau o operație de sincronizare a memoriei suportată La sincronizare, toate operațiunile de scriere în așteptare sunt finalizate și nicio operațiune nouă nu poate începe până când toate scrierile anterioare nu s-au încheiat și sincronizarea în sine s-a încheiat Sincronizarea aduce memoria într-o stare stabilă în care nu există operațiuni în așteptare Operațiile de sincronizare în sine sunt consistente secvenţial, adică dacă sunt inițiate de mai mulți procesoare, se alege o anumită ordine pentru a le executa, iar toți procesoarele percep aceeași ordine Cu o consistență slabă, timpul este împărțit în perioade strict consecutive separate prin operații de sincronizare (Fig ) Nu este garantată o comandă specială pentru operațiunile de scriere IA și B, iar diferitele procesoare le pot percepe diferit, adică din punctul de vedere al unui procesor, operația IA poate fi efectuată mai întâi, apoi B și din punct de vedere a altuia, mai întâi B, apoi IA Această situație este acceptabilă Cu toate acestea, pentru toate procesoarele, operațiunea B a fost finalizată înainte de C, deoarece înregistrările C, B, A, B au putut începe numai după ce înregistrările IA, B și A au fost finalizate în timpul primei operațiuni de sincronizare Astfel, folosind operațiuni de sincronizare, este posibil să se introducă în mod programatic o anumită ordine în succesiunea evenimentelor, deși acest lucru durează ceva timp, deoarece necesită curățarea conductei de memorie Capitolul Arhitecturi de calculatoare paralele Înregistrare A B C A B Procesorul A Procesorul B Procesorul C PENTRU ST Momentul de sincronizare D E C AP F D Timp Orez Operațiile de sincronizare sunt efectuate periodic pe o memorie slab consistentă Solvabilitate liberă Consistența slabă nu este un model foarte eficient, deoarece necesită finalizarea tuturor operațiunilor de memorie și întârzie noile operațiuni până la finalizarea celor anterioare În modelul de consistență gratuită, lucrurile stau mult mai bine, deoarece folosește ceva similar cu secțiunile critice ale programului Ideea este următoarea Dacă un proces iese în afara regiunii critice, aceasta nu înseamnă că toate scrierile ar trebui să se termine imediat Este necesar doar ca toate scrierile să fie finalizate înainte ca orice proces să intre din nou în această regiune critică În acest model, operația de sincronizare este separată în două operații diferite Pentru a citi sau a scrie într-o variabilă partajată, procesorul (adică, software-ul său) trebuie mai întâi să efectueze o operație de achiziție asupra variabilei de sincronizare, ceea ce îi permite să obțină acces exclusiv la datele partajate Procesorul poate apoi să facă orice dorește să facă cu datele (citește sau scrie), iar când este gata, trebuie să emită o operație de eliberare a variabilei de sincronizare pentru a indica faptul că s-a terminat Operația de eliberare nu necesită finalizarea scrierilor în așteptare, dar nu se poate finaliza singură până când toate scrierile începute anterior nu se vor finaliza Mai mult, operațiunile noi de memorie pot începe imediat Când începe următoarea operațiune de achiziție, se face o verificare pentru a vedea dacă toate operațiunile de eliberare anterioare s-au încheiat Dacă nu, atunci operația de achiziție este întârziată până când este finalizată (și toate operațiunile de scriere trebuie finalizate înainte ca toate operațiunile de eliberare să se fi încheiat) Astfel, dacă următoarea achiziție are loc suficient de mult după ultima lansare, nu trebuie să aștepte și poate intra în regiunea critică fără întârziere Dacă o operațiune de achiziție este executată la scurt timp după o operație de eliberare, aceasta (și orice comenzi care trebuie să urmeze) așteaptă ca toate operațiunile de eliberare să se termine Acest lucru asigură că toate variabilele sunt critice Multiprocesoare lusti va fi actualizat Acest model este ceva mai complex decât modelul de consecvență slabă, dar are un avantaj semnificativ: nu trebuie să întârzie execuția comenzilor la fel de des ca în modelul de consecvență slabă Problema viabilității memoriei nu poate fi considerată definitiv rezolvată Cercetătorii încă mai propun noi modele [ , ] Multiprocesoare IMA în arhitecturi multiprocesoare simetrice Cele mai simple multiprocesoare au o singură magistrală (Fig , a) Două sau mai multe procesoare și unul sau mai multe module de memorie folosesc această magistrală pentru a comunica Dacă procesorul trebuie să citească un cuvânt din memorie, mai întâi verifică dacă magistrala este liberă Dacă magistrala este liberă, procesorul plasează pe magistrală adresa cuvântului dorit, afirmă câteva semnale de control și așteaptă ca memoria să plaseze cuvântul solicitat pe magistrală Memoria comună Obosi a b V Orez Trei variante de multiprocesor pe o singură magistrală: fără cache (a); cu cache ( ); cu memorie cache și module separate de memorie locală (c) Dacă magistrala este ocupată, procesorul așteaptă pur și simplu ca acesta să devină liber Există o problemă cu această schemă Cu două sau trei procesoare, accesul la magistrală nu este greu de reglat, dificultăți apar atunci când există procesoare sau Performanța sistemului în acest caz este complet determinată de lățimea de bandă a magistralei și multe procesoare trebuie să rămână inactiv de cele mai multe ori Pentru a rezolva problema, trebuie să adăugați memorie cache la fiecare procesor, așa cum se arată în Fig b Memoria cache poate fi amplasată în interiorul cipului procesorului, lângă cipul procesorului, pe placa procesorului Capitolul Arhitecturi de calculatoare paralele Orice combinație a acestor opțiuni este permisă Deoarece în acest caz se pot citi multe cuvinte din cache, traficul pe autobuz va scădea, iar sistemul va putea deservi mai multe procesoare Astfel, memorarea în cache are un efect semnificativ în acest caz În schema următoare, fiecare procesor are nu doar un cache, ci și propria sa memorie locală, pe care o accesează printr-o magistrală locală dedicată (Fig , c) Pentru a face o utilizare optimă a acestei configurații, compilatorul trebuie să plaseze tot codul programului, șirurile de caractere, constantele și alte date de numai citire, precum și stivele și variabilele locale, în unitățile de memorie locale Memoria partajată va fi necesară doar pentru stocarea variabilelor partajate În majoritatea cazurilor, o astfel de distribuție rezonabilă reduce semnificativ volumul de trafic pe autobuz și nu necesită asistență activă din partea compilatorului Consistența în cache Să presupunem că memoria este consecvențială Ce se întâmplă atunci când procesorul are o linie în memoria cache, iar procesorul încearcă să citească un cuvânt corespunzător aceleiași linii de cache? În absența unor reguli speciale, procesorul va primi o copie a acestei linii în memoria cache În principiu, memorarea în cache dublă a aceluiași șir este perfect acceptabilă Acum să presupunem că procesorul modifică un rând și imediat după aceea procesorul citește o copie a acelui rând din memoria cache Ca rezultat, primește date învechite, rupând contractul dintre software și memorie Acest lucru nu va duce la nimic bun pentru programul executat de procesorul Această problemă, care se numește problema consistenței cache-ului, este foarte importantă Dacă nu este activată, memoria cache nu poate fi utilizată, iar numărul de multiprocesoare conectate la o magistrală va trebui redus la două sau trei Multe soluții diferite au fost propuse de experți (vezi, de exemplu, [ , ]) Deși toți acești algoritmi, numiți protocoale de potrivire a memoriei cache, diferă în unele detalii, toți împiedică să apară versiuni diferite ale aceleiași linii în două sau mai multe cache în același timp În toate soluțiile, controlerul cache este proiectat astfel încât cache-ul să poată monitoriza cererile care vin prin magistrală de la alte procesoare și alte cache, luând anumite acțiuni de la caz la caz Acest dispozitiv se numește snooping cache, deoarece cache-ul, așa cum spune, "monitorizează" magistrala Setul de reguli urmate de cache, procesoare și memoria principală pentru a preveni apariția diferitelor versiuni de date în mai multe cache se numește protocol de consistență a cache-ului Unitatea de transmisie și stocare pentru un cache este o linie cache De obicei, o linie de cache are sau de octeți Cel mai simplu protocol pentru coordonarea cache-urilor se numește write through Pentru a înțelege mai bine cum funcționează acest protocol, luați în considerare cele cazuri enumerate în Tabelul Dacă procesorul încearcă să citească Multiprocesoare un cuvânt care nu este în cache, controlerul cache încarcă linia care conține acel cuvânt în cache Șirul este furnizat de memoria principală, care în acest protocol trebuie să stocheze întotdeauna date actualizate În viitor, informațiile pot fi citite din cache Tabelul Scriere (colonele goale înseamnă că nu are loc nicio acțiune) Acțiune Solicitare locală Solicitare la distanță Read cache miss Preluarea datelor din memorie Afișarea pentru citirea cache-ului Folosind datele cache-ului local Write cache miss Actualizați datele din memorie Atingeți cache de intrare Actualizați memoria cache și memoria Invalidați intrarea în cache În cazul unei pierderi de scriere cache, cuvântul modificat este scris în memoria principală Șirul care conține cuvântul dorit nu este încărcat în cache În cazul unei lovituri de cache de scriere, memoria cache este actualizată și cuvântul este, de asemenea, scris în memoria principală Esența protocolului este că, ca rezultat al tuturor operațiunilor de scriere, cuvântul care este scris trece în mod necesar prin memoria principală, astfel încât datele din memoria principală să fie întotdeauna "proaspete" Să ne uităm din nou la toate aceste acțiuni, dar acum din perspectiva unui cache de urmărire (coloana din dreapta tabelului ) Să numim cache-ul care efectuează acțiunea Cache și cache slave Cache Dacă are loc o pierdere de citire a cache-ului Cache , Cache merge la magistrală pentru a obține linia corectă din memoria principală Cache vede asta, dar nu face nimic Dacă apare o lovitură în cache de citire Cache (adică linia dorită este deja în Cache ), magistrala nu este accesată, astfel încât Cache nu știe nimic despre accesările cache de citire Cache Procesul de înregistrare este mai interesant Dacă procesorul scrie un cuvânt, memoria cache accesează magistrala atât pentru o pierdere de cache, cât și pentru o lovitură de cache Pentru orice scriere, memorați în cache verificări pentru prezența cuvântului care este scris Dacă cuvântul lipsește, memoria cache îl tratează ca o pierdere a memoriei cache la distanță și nu face nimic (Rețineți că, conform Tabelului , o pierdere a memoriei cache de la distanță înseamnă că cuvântul nu se află în memoria cache de urmărire și dacă este sau nu în memoria cache a inițiatorului nu contează Astfel, aceeași solicitare poate returna un cache local - loviți și ratați pentru memoria cache de urmărire și invers ) Acum să presupunem că Cache scrie un cuvânt care se află în Cache Dacă Cache nu face nimic, va conține date învechite, astfel încât Cache invalidează intrarea în cache care conține cuvântul modificat Ca rezultat, elementul este pur și simplu eliminat din cache Deoarece toate cache-urile țin evidența tuturor acceselor la magistrală, scrierea oricărui cuvânt îl va actualiza în memoria cache a inițiatorului și în memoria principală și îl va elimina din toate celelalte cache Acest lucru previne apariția versiunilor inconsistente Capitolul Arhitecturi de calculatoare paralele Desigur, procesorul cache este liber să citească același cuvânt în următorul ciclu În acest caz, memoria cache primește cuvântul din memoria principală, care a fost deja actualizată În acest moment, memoria cache , memoria cache și memoria principală conțin copii identice ale cuvântului respectiv Dacă scrie vreun procesor, atunci cache-urile altor procesoare vor fi șterse, iar memoria principală va fi actualizată din nou Sunt posibile diferite variante ale acestui protocol de bază De exemplu, în cazul unei lovituri de cache de scriere, cache-ul servo invalidează de obicei elementul care conține cuvântul care este scris Cu toate acestea, în loc să invalidați cuvântul, puteți accepta noua valoare și puteți actualiza memoria cache În esență, reîmprospătarea memoriei cache este același lucru cu invalidarea unui element și apoi citirea cuvântului corect din memorie În toate protocoalele de stocare în cache, trebuie făcută o alegere între o strategie de actualizare și o strategie de invalidare Aceste protocoale funcționează diferit sub sarcini diferite Mesajele de reîmprospătare au o sarcină utilă și, prin urmare, sunt mai mari decât mesajele de date nevalide, dar pot preveni pierderile ulterioare ale memoriei cache O altă opțiune este să încărcați memoria cache a martorilor la erorile din memoria cache de scriere O astfel de încărcare nu afectează în niciun fel corectitudinea algoritmului; afectează doar performanța Se pune întrebarea: care este probabilitatea ca cuvântul tocmai scris să fie scris din nou în curând? Atunci când probabilitatea este mare, se poate vorbi în favoarea încărcării cache-ului pe pierderile de cache de scriere (politica de completare cu scriere) Când probabilitatea este scăzută, este mai bine să nu reîmprospătați memoria cache în cazul pierderii cache-ului de scriere Dacă cuvântul este pe cale să fie citit în curând, acesta va fi încă încărcat după o pierdere de citire a memoriei cache, deci nu are rost să-l încărcați într-o pierdere a memoriei cache de scriere La fel ca majoritatea soluțiilor simple, această soluție nu este foarte eficientă Fiecare operațiune de scriere necesită transferarea datelor în memoria principală prin magistrală, iar cu un număr mare de procesoare, magistrala devine un blocaj Prin urmare, au fost dezvoltate alte protocoale Toate au un lucru în comun: nu orice operație de scriere are ca rezultat o scriere directă în memoria principală În schimb, atunci când o linie de cache se modifică, un bit special este setat în interiorul cache-ului pentru a indica faptul că linia din cache este validă, dar nu este în memorie Deși șirul va trebui în cele din urmă scris în memorie, este probabil ca acest lucru să se întâmple după câteva operații de scriere Acest tip de protocol se numește protocol de scriere înapoi Protocolul MESI Un protocol de rescriere popular este protocolul MESI (Invalid, Shared, Exclusive, Modified), denumit după primele litere ale celor patru stări posibile ale elementelor cache [ ] Se bazează pe protocolul anterior scris o dată [ ] Protocolul MESI este folosit de Pentium și de alte procesoare pentru a monitoriza magistrala Conform acestui protocol, fiecare element cache poate fi în una dintre următoarele patru stări: Multiprocesoare + invalid - elementul din cache conține date nevalide; + shared - elementul poate fi stocat în mai multe cache, memoria este actualizată; + exclusiv - elementul este doar în acest cache (nu se află în niciun alt cache), memoria este actualizată; + modificat - elementul este valid, memoria principală este invalidă, nu există copii ale elementului Când procesorul este încărcat, toate intrările din cache sunt marcate ca nevalide În timpul primei citiri din memoria principală, linia dorită este chemată în memoria cache a acestui procesor și marcată ca exclusivă, deoarece aceasta este singura copie în cache (Fig , a) La citirile ulterioare, procesorul folosește această linie fără a accesa magistrala Un alt procesor poate apela aceeași linie și o poate pune în cache În acest caz, primul rowholder (procesorul ) învață prin snooping că nu mai este singurul rowholder și anunță prin autobuz că are o copie Ambele copii sunt marcate ca partajate (Figura b) Cu alte cuvinte, starea "partajată" înseamnă că memoria este actualizată, iar linia după citire se află într-unul sau mai multe cache-uri La citirile ulterioare ale șirului partajat, procesorul nu folosește magistrala și nu schimbă starea șirului Să vedem acum ce se întâmplă când procesorul scrie pe o linie cache partajată În acest caz, procesorul plasează un semnal special pe magistrală, informând toate celelalte procesoare că copiile lor nu mai sunt valabile, în timp ce copia din memoria cache a procesorului însuși intră în starea "modificată" (Fig , c) Acest șir nu este scris în memorie Rețineți că, dacă rândul specificat este exclusiv, nu trebuie trimis niciun semnal invalid către magistrală, deoarece nu există alte copii ale rândului Apoi, aflați ce se întâmplă când procesorul citește această linie Procesorul , care este în prezent deținătorul liniei, știe că copia din memorie este invalidă, așa că trimite un semnal către magistrală pentru a spune procesorului să aștepte în timp ce aceasta scrie linia înapoi în memorie Imediat după scriere, procesorul apelează din memorie o copie a liniei tocmai scrise, iar în ambele cache linia este marcată ca partajată (Fig , d) Atunci când procesorul scrie din nou acea linie (Figura c), copia sa în memoria cache a procesorului devine invalidă În cele din urmă, lăsați acum Procesorul să scrie cuvântul pe linie Procesorul vede că se încearcă o scriere și pune un semnal pe magistrală care îi spune Procesorului să aștepte în timp ce Procesorul își scrie linia în memorie După ce scrierea este terminată, procesorul marchează propria copie a șirului ca nevalidă, deoarece știe că un alt procesor este pe cale să o schimbe Apare o situație în care procesorul scrie pe o linie necache Dacă se aplică politica de completare prin scriere, rândul va fi încărcat în cache și marcat ca modificat (Figura e) Dacă nu este aplicată nicio politică de completare cu scriere, scrierea are loc direct în memorie și șirul nu este memorat în cache nicăieri Capitolul Arhitecturi de calculatoare paralele Cache Bus Procesorul citește blocul A A Procesorul citește blocul A b Obosi Obosi Procesorul scrie blocul A Obosi Procesorul citește blocul A Obosi Procesorul scrie blocul A Obosi Procesorul scrie blocul A Orez Ilustrație a protocolului MESI Multiprocesoare UMA interconectate Datorită prezenței unui singur bus într-un multiprocesor UMA, chiar și după optimizare, nu pot exista mai mult de sau de procesoare Pentru a crește numărul de procesoare, este necesar un alt tip de rețea de comunicații Cea mai simplă schemă de conectare a n procesoare cu k blocuri de memorie este comutarea încrucișată Multiprocesoare (Fig ) Conexiunea încrucișată a fost folosită de multe decenii în comutatoarele telefonice, care permit conectarea unor grupuri de linii de intrare și de ieșire într-un mod arbitrar comutare comutare nod nod Orez Comutare încrucișată x (a); nodul deschis (b); nod închis (c) La fiecare intersecție a liniilor orizontale (de intrare) și verticale (de ieșire) există un nod de comutare (punct de încrucișare), care poate fi deschis sau închis în funcție de dacă liniile orizontale și verticale trebuie conectate sau nu Pe fig , și vedem că trei noduri sunt închise, datorită cărora se stabilește simultan comunicarea între următoarele perechi procesor-memorie ( , ), ( , ) și ( , ) Sunt posibile și alte combinații Numărul de combinații este egal cu numărul de opțiuni pentru plasarea a opt turnuri pe o tablă de șah, astfel încât niciuna dintre ele să nu fie atacată de alta Una dintre cele mai frumoase proprietăți ale unei rețele cu comutare încrucișată este că nu este blocată Aceasta înseamnă că procesorul se va putea conecta întotdeauna la modulul de memorie potrivit, chiar dacă unele linii sau noduri sunt deja ocupate (presupunând că modulul de memorie în sine este disponibil) În plus, nu este necesară o planificare prealabilă Chiar dacă au fost deja stabilite șapte conexiuni arbitrare, este întotdeauna posibil să conectați procesorul rămas la modulul de memorie rămas În continuare, vom lua în considerare schemele de interconectare care nu au această capacitate Una dintre cele mai rele proprietăți ale comutării încrucișate este că numărul de noduri crește cu n Pentru sisteme de dimensiuni medii, interconectare Capitolul Arhitecturi de calculatoare paralele este o soluție bună și ne vom uita la o astfel de soluție mai târziu în acest capitol, multiprocesorul Sun Fire E K NUMA Cu toate acestea, de procesoare și de module de memorie ar necesita un milion de noduri, ceea ce este inacceptabil Este nevoie de ceva complet diferit iMA-multiprocesoare cu comutare în mai multe etape În centrul acestui "complet diferit" se află un mic comutator x (Fig , a) cu două intrări și două ieșiri Mesajele care sosesc pe oricare dintre liniile de intrare pot fi comutate pe orice linie de ieșire În exemplul nostru, mesajele vor conține până la patru părți (Figura b) Câmpul pentru modul indică ce modul de memorie este solicitat Câmpul de adresă definește adresa din acest modul de memorie Câmpul de cod operație specifică una dintre operațiunile disponibile, cum ar fi READ sau WRITE În cele din urmă, câmpul opțional de valoare poate conține un operand, cum ar fi un cuvânt de de biți, care urmează să fie scris atunci când se efectuează o operație WRITE Comutatorul verifică câmpul modulului și îl folosește pentru a determina dacă mesajul trebuie trimis prin X sau Y A - IN - - X A Modul Abordare Cod operațiune Sensul b Orez Comutator x (a); formatul mesajului (b) Switch-urile noastre x pot fi configurate în diferite moduri pentru a realiza rețele comutate în mai multe etape O opțiune este rețeaua omega (Figura ) Aici, procesoare sunt conectate la module de memorie prin comutatoare Pentru n procesoare și n module de memorie, avem nevoie de log n etape și n/ comutatoare pe etapă, adică (n/ )log n comutatoare în total, ceea ce este mult mai mic decât n noduri de comutare în comutare încrucișată, în special pentru valori mari din n Schema de conexiuni a rețelei omega este adesea menționată ca o amestecare perfectă, deoarece amestecarea semnalelor în fiecare etapă este ca amestecarea unui pachet de cărți Pentru a înțelege cum funcționează rețeaua omega, să presupunem că procesorul trebuie să citească un cuvânt din modulul de memorie Procesorul trimite un mesaj READ pentru comutatorul D, care conține în câmpul modulului Comutatorul ia primul (adică cel din stânga) bit de la și învață direcția de la acesta ( indică ieșirea de sus, indică partea de jos) Deoarece acest bit este în acest caz, mesajul este trimis prin ieșirea inferioară către comutatorul D Toate comutatoarele din a doua etapă, inclusiv D, folosesc al doilea bit pentru a determina direcția În acest caz, este , deci mesajul este trimis prin ieșirea de jos către comutatorul D, care verifică al treilea bit Este , așa că mesajul trece prin ieșirea de sus și sosește Multiprocesoare intră în modulul de memorie , ceea ce ne-am dorit Calea parcursă de mesaj este prezentată în Fig litera a Procesoare pași Module de memorie Orez rețea de comutație în mai multe etape omega Pe măsură ce mesajul călătorește prin rețea, acesta nu mai are nevoie de toți biții numărului de modul, începând de la cel din stânga, unul câte unul Acestea pot fi folosite pentru a înregistra numerele de linii de intrare, astfel încât să se știe la ce cale să se trimită răspunsul Pentru calea a, liniile de intrare sunt (intrarea superioară în D), (intrarea inferioară în D) și, respectiv, (intrarea inferioară în D) Astfel, la trimiterea unui răspuns se folosește și secvența , citită doar de la dreapta la stânga Să presupunem că, în timp ce toate acestea se întâmplă, procesorul decide de asemenea să scrie un cuvânt în modulul de memorie Un proces similar are loc aici Mesajul este trimis prin ieșirile de sus, de sus și de jos, respectiv Pe fig această cale este marcată cu litera b Când un mesaj ajunge la destinație, câmpul său de modul conține secvența , indicând calea pe care a parcurs mesajul Deoarece aceste două solicitări trec prin comutatoare, benzi și module de memorie diferite, ele pot rula în paralel Acum să vedem ce s-ar întâmpla dacă procesorul ar trebui să acceseze modulul de memorie Solicitarea sa ar intra în conflict cu cea a procesorului de pe comutatorul A, iar unul dintre ei ar trebui să aștepte Adică, spre deosebire de rețeaua cu comutare încrucișată, rețeaua omega este o rețea de blocare Nu toate seturile de solicitări pot fi trimise în același timp Coliziunile pot apărea atât între solicitări (când se utilizează aceeași linie sau același comutator), cât și între solicitări (în memorie) și răspunsuri (din memorie) Este destul de evident că este de dorit să se distribuie uniform accesurile la memorie între modulele de memorie O modalitate posibilă este să folosiți biții mai puțin semnificativi ca număr de modul Luați în considerare un spațiu de adrese adresat de octeți pentru un computer care are nevoie în principal de acces la cuvinte de de biți Cei doi biți cei mai puțin semnificativi sunt de obicei , dar următorii trei Capitolul Arhitecturi de calculatoare paralele biții sunt distribuiti uniform Dacă folosiți acești trei biți ca număr de modul de memorie, cuvintele adresate secvenţial ajung în module consecutive Un sistem de memorie în care cuvintele succesive rezidă în module de memorie diferite se numește stratificat Memoria stratificată aduce paralelism la absolut, deoarece majoritatea acceselor de memorie sunt accesări la adrese secvențiale De asemenea, este posibilă dezvoltarea rețelelor neblocante, în care sunt oferite mai multe căi de la fiecare procesor la fiecare modul de memorie pentru optimizarea traficului Procesoare multiple NUMA Numărul de procesoare din multiprocesoarele UMA cu o singură magistrală este de obicei limitat la câteva zeci, iar multiprocesoarele cu comutare încrucișată sau cu mai multe etape necesită hardware scump și nu au mult mai multe procesoare Pentru a combina mai mult de de procesoare într-un singur multiprocesor, este nevoie de altă soluție Anterior, se presupunea că toate modulele de memorie au același timp de acces Dacă nu te limitezi la acest concept, poți ajunge la multiprocesoare cu acces neuniform la memorie (NonUniform Memory Access, NUMA) La fel ca multiprocesoarele UMA, acestea oferă un singur spațiu de adresă pentru toate procesoarele, dar spre deosebire de mașinile UMA, accesul la modulele de memorie locală este mai rapid decât la cele la distanță Prin urmare, toate programele UMA vor putea rula neschimbate pe o mașină NUMA, dar performanța va fi mai slabă decât pe o mașină UMA cu aceeași viteză de ceas Aparatele NUMA au trei caracteristici cheie care, împreună, le deosebesc de alte multiprocesoare: + există un singur spațiu de adresă vizibil tuturor procesoarelor; + accesul la memoria de la distanță se face prin comenzile LOAD și STORE; + Accesul la memoria de la distanță este mai lent decât accesul la memoria locală Dacă timpul de acces la memoria la distanță nu este mascat de cache (nu există cache), un astfel de sistem se numește NC-NUMA (No Caching NUMA - NUMA without caching) Dacă sunt prezente cache-uri coerente, atunci sistemul se numește CC-NUMA (Coherent Cache NUMA - NUMA with coerent caches) Programatorii se referă adesea la acest sistem ca memorie partajată distribuită hardware, deoarece este în esență aceeași cu memoria partajată distribuită (DSM) implementată în software, dar suportată în hardware folosind dimensiuni mici ale paginilor Una dintre primele mașini NC-NUMA a fost multiprocesorul Carnegie-Mellon Cm Este prezentat într-un mod simplificat în Fig , [ ] Acest multiprocesor a constat dintr-un set de procesoare LSI- , fiecare cu propria memorie accesată prin magistrala locală (LSI- este o versiune cu un singur procesor a foarte popularului minicomputer DEC PDP- din anii ' ) În plus, procesoarele LSI- erau conectate între ele printr-o magistrală de sistem Când s-a efectuat un acces la memorie, cererea a fost trimisă la administratorul de memorie, Multiprocesoare care a verificat dacă cuvântul dorit se află sau nu în memoria locală Dacă da, cererea a fost trimisă prin magistrala locală; dacă nu, cererea a fost trimisă prin magistrala de sistem către sistemul care conținea cuvântul Desigur, a doua operație a necesitat mult mai mult timp decât prima Executarea unui program stocat în memoria de la distanță a durat de ori mai mult decât executarea aceluiași program localizat local Memoria procesorului Memorie procesorului Memoria procesorului Memoria procesorului Autobuz de sistem Orez Mașină NUMA cu două nivele de magistrală Consistența memoriei într-o mașină NC-NUMA este garantată deoarece nu are cache Fiecare cuvânt de memorie poate fi doar într-un singur loc, așa că nu există pericolul de a avea o copie cu date învechite - nu există copii deloc În ce modul de memorie se află o anumită pagină este de mare importanță, deoarece performanța depinde de aceasta Pentru a maximiza performanța în mașinile NC-NUMA, a fost implementată următoarea schemă complexă de suport software pentru mișcarea paginii De obicei, la fiecare câteva secunde, ar rula un proces special de "câine de pază" (daemon) numit scanner de pagini Sarcina sa este de a monitoriza statisticile de utilizare a paginii și de a le muta în așa fel încât performanța să crească Dacă pagina a ajuns în locul "greșit", scannerul de pagini a descărcat-o din memorie, astfel încât următorul acces la ea a provocat o eroare de ieşire a paginii Când apare o eroare a paginii, se ia o decizie cu privire la locul în care se pune pagina (poate nu în modulul de memorie în care se afla anterior) Pentru a preveni alunecarea, a existat o regulă conform căreia pagina, după plasare, ar trebui să rămână pe loc pentru timpul AT Au fost propuși mulți alți algoritmi, dar niciunul dintre ei nu a devenit de departe cel mai bun [ ] multiprocesoare CC-NUMA Multiprocesoare precum cel prezentat în Fig nu se scalează bine pentru că nu au cache Accesarea memoriei de la distanță de fiecare dată pentru a accesa un cuvânt care nu se află în memoria locală este foarte risipitoare și are un impact foarte negativ asupra performanței Cu toate acestea, odată cu adăugarea memoriei cache, există o problemă de consistență a memoriei cache O modalitate de a menține cache-urile consistente este să urmăriți magistrala de sistem Din punct de vedere tehnic, acest lucru nu este greu de realizat, dar atunci când numărul de procesoare depășește o anumită limită, similar cu Capitolul Arhitecturi de calculatoare paralele solutia devine irealizabila Multiprocesoarele cu adevărat mari necesită o abordare complet diferită Cea mai populară abordare de astăzi pentru construirea de multiprocesoare mari legate de sistemele CC-NUMA este implementată în multiprocesorul bazat pe directoare Ideea de bază este de a păstra o bază de date cu informații despre exact unde se află fiecare linie de cache și care este starea acesteia La accesarea unei linii de cache, o interogare este trimisă în baza de date despre locul în care se află această linie și dacă este "curată" sau "murdară" (modificată) Deoarece baza de date trebuie să fie solicitată pentru orice instrucțiune de acces la memorie, baza de date trebuie să fie susținută de hardware dedicat de mare viteză, capabil să proceseze cererea în fracțiuni de ciclu de magistrală Pentru a înțelege mai bine ce este un multiprocesor bazat pe directoare, luați în considerare ca exemplu un sistem cu de noduri în care fiecare nod este format dintr-un singur procesor și MB de RAM conectat la procesor printr-o magistrală locală Cantitatea totală de memorie este de de octeți Este împărțit în de linii cache a câte de octeți fiecare Memoria este distribuită static între noduri: adresele - M sunt situate în nodul , adresele - M sunt situate în nodul etc Nodurile sunt conectate printr-o rețea de comunicații (Fig , a) Rețeaua poate fi implementată ca o rețea, hipercub sau altă topologie Fiecare nod conține intrări de director pentru linii cache de de octeți, alcătuind de octeți de memorie Pentru moment, presupunem că o linie poate fi conținută în cel mult un cache Nodul Nodul Nodul Memoria procesorului Memoria procesorului Memoria procesorului Biți Nod bloc Părtinire - treizeci V b Orez Multiprocesor bazat pe director, care conține de noduri (a); împărțirea unei adrese de memorie pe de biți în câmpuri (b); director la nodul (in) Multiprocesoare Pentru a înțelege cum funcționează un director, să urmăm calea comenzii LOAD de la procesorul , care accesează un rând din cache În primul rând, procesorul care a emis comanda o transmite managerului de memorie, care o traduce pentru a obține o adresă fizică, cum ar fi x Managerul de memorie împarte această adresă în trei părți, așa cum se arată în Fig b În notație zecimală, aceste trei părți sunt nodul , rândul și offset-ul Managerul de memorie vede că cuvântul de memorie care este accesat este la nodul , nu la nodul , așa că trimite o cerere prin rețea la nodul , unde se află linia dorită, află dacă linia este în cache și, dacă da, unde exact Când o solicitare ajunge la nodul , aceasta este direcționată către dispozitivul director Dispozitivul verifică un tabel cu intrări (o intrare pe linie de cache) și preia intrarea În fig În Figura - , puteți vedea că linia nu este în cache, astfel încât dispozitivul preia linia din memoria RAM locală, o trimite la nodul și actualizează intrarea din director pentru a arăta că linia se află în memoria cache a nodului Acum să ne uităm la o a doua interogare, de data aceasta pentru rândul de la nodul În fig În Figura , puteți vedea că această linie se află în memoria cache a nodului În acest moment, dispozitivul poate actualiza intrarea din director pentru a indica că linia se află acum în nodul , apoi trimite un mesaj la nodul , astfel încât linia de la este transmis la nodul și invalidează memoria cache a nodului Rețineți că mai multe mesaje trebuie transmise în orice multiprocesor cu memorie partajată Să calculăm câtă memorie ocupă directoarele Fiecare nod conține MB de RAM și oligoelemente de biți pentru RAM respectivă Astfel, directorul ia aproximativ x biți de la MB, sau aproximativ , %, ceea ce este destul de acceptabil Chiar dacă linia cache are de octeți, pierderea memoriei este de doar % Dacă lungimea liniei de cache este de de octeți, pierderea va fi și mai mică - % Dezavantajul evident al acestei scheme este că un rând poate fi stocat în cache doar de un singur nod Pentru ca rândurile să fie stocate în cache pe mai multe noduri, aveți nevoie de o modalitate de a le găsi (de exemplu, pentru a invalida sau a actualiza la scriere) Sunt posibile diverse opțiuni O opțiune este de a furniza fiecare intrare de director cu k câmpuri pentru a identifica alte noduri, permițând ca fiecare rând să fie stocat în cache pe mai multe noduri (până la k noduri) A doua opțiune este înlocuirea câmpului cu numărul nodului cu un bitmap, câte un bit per nod Nu există restricții privind numărul de copii, dar costurile generale cresc semnificativ Un director care conține de biți pentru fiecare linie de cache de de octeți ( de biți) necesită mai mult de % din memorie O a treia opțiune este de a stoca un câmp de biți în fiecare intrare de director și de a utiliza acel câmp ca antet al unei liste conectate care unește toate copiile liniei de cache Această strategie necesită spațiu suplimentar la fiecare nod pentru pointerii listei legate În plus, trebuie să răsfoiți lista pentru a găsi toate copiile dacă este necesar Fiecare dintre cele trei strategii are propriile sale avantaje și dezavantaje În practică, sunt folosite toate cele trei strategii Capitolul Arhitecturi de calculatoare paralele O altă problemă cu această schemă este cum să verificați dacă memoria originală este actualizată sau nu Dacă se dorește să citească o linie de cache care nu sa schimbat, cererea poate fi satisfăcută din memoria principală fără a fi nevoie să direcționeze cererea către cache Dacă doriți să citiți o linie cache modificată, cererea trebuie direcționată către nodul în care se află această linie cache, deoarece există doar o copie validă a acesteia Dacă este permis să aveți o singură copie a liniei cache, așa cum se arată în Fig , nu are rost să monitorizăm modificările la liniile de cache, deoarece orice cerere nouă necesită transmiterea unui mesaj către copia existentă pentru a o invalida Desigur, păstrarea informațiilor despre starea fiecărei linii de cache (curată sau murdară) necesită informarea nodului sursă despre fiecare modificare a liniei de cache, chiar dacă există o singură copie a acestei linii Dacă există mai multe astfel de copii, schimbarea uneia dintre ele înseamnă că toate celelalte trebuie declarate invalide, deci este nevoie de un protocol pentru a evita situația de cursă De exemplu, pentru a schimba o linie cache partajată, unul dintre deținătorii acelei linii ar putea solicita acces exclusiv la aceasta înainte de a o schimba O astfel de cerere ar invalida toate celelalte copii Alte optimizări posibile pentru mașinile CC-NUMA sunt discutate în [ ] Multiprocesor Sun Fire E K NUMA Ca exemplu de mașini NUMA cu memorie partajată, luați în considerare familia de multiprocesoare Sun Fire de la Sun Microsystems Există multe modele diferite în această familie, dintre care vom lua în considerare multiprocesorul E K care conține de procesoare UltraSPARC IV La baza lor, fiecare dintre aceste procesoare este o pereche de procesoare UltraSPARC III Cu cu memorie cache și memorie partajată Sistemul E K diferă doar prin faptul că folosește procesoare unice în loc de procesoare duale În familie există și modele mai simple, dar ne interesează să aflăm cum funcționează modelele cu numărul maxim de procesoare Sistemul E K conține seturi de plăci, fiecare set constând dintr-o placă de memorie procesor, o placă I/O cu patru sloturi PCI și o placă de expansiune Placa de expansiune combină procesorul-memorie și plăcile I/O în perechi, conectând aceste perechi la panoul central, care transportă plăcile rămase și asigură comutarea acestora Fiecare procesor-placă de memorie conține procesoare și module RAM de GB Astfel, fiecare procesor-placă de memorie are procesoare și GB RAM (pentru E K - procesoare și același număr de GB RAM) În total, sistemul E K are de procesoare, GB de memorie și de sloturi PCI, așa cum se arată în Figura În mod curios, numărul a fost ales doar din considerente de dimensiune: un sistem de seturi de scânduri este cel mai mare sistem care poate fi adus într-o ușă fără a fi demontat În timp ce programatorii se gândesc doar la zerouri și la unu, dezvoltatorii trebuie să se gândească, printre altele, la modul în care cumpărătorul își va aduce creația în casă Pentru a conecta seturi de plăci, panoul central are trei circuite de interconectare x - câte un circuit pentru liniile de adresă Multiprocesoare niya, răspunsuri și date Pe lângă cele seturi de plăci, în panoul central este introdusă o placă de control al sistemului, care conține, pe lângă procesor, interfețe pentru conectarea unei unități de disc, o unitate de bandă, linii seriale și alte periferice necesare pentru pornirea sistemului, suport si control Memorie Memorie Memorie Memorie ] Conector PCI ] Conector PCI Placa de control al sistemului CPU- CPU - ? CPU- CPU-I Și procesor-placi de memorie Memoria CPU Memoria CPU Memoria CPU Memoria CPU Conector PCI li :i r - conector PCI EZZZZJ ii plăci I/O Slot PCI Orez, , Multiprocesor Sun Microsystems E K Subsistemul de memorie este inima oricărui multiprocesor Cum este conectată memoria distribuită la de procesoare? Abordările simple, adică o magistrală de urmărire comună mare sau un circuit de trecere x , sunt de puțină folos în acest caz Prima opțiune este proastă deoarece magistrala comună devine blocajul întregului sistem, iar a doua nu este bună pentru că este dificil și costisitor să dezvoltați un astfel de comutator Prin urmare, multiprocesoarele mari, cum ar fi E K, trebuie inevitabil să utilizeze subsisteme de memorie non-triviale La nivelul setului de placă, logica snooping asigură că fiecare procesor poate verifica cererile primite cu lista de blocuri din memoria cache locală Când procesorul accesează un cuvânt de memorie, mai întâi convertește adresa virtuală într-o adresă fizică și verifică dacă blocul dorit este în cache (Adresele fizice sunt de de biți, dar din cauza cerințelor de spațiu, memoria este limitată la GB ) Dacă blocul dorit este găsit în propriul cache, cuvântul solicitat este returnat În caz contrar, logica de urmărire verifică dacă blocul dorit există în cadrul aceluiași set de plăci Dacă este, atunci cererea este executată În caz contrar, după cum se arată mai jos, cererea este trimisă prin intermediul Capitolul Arhitecturi de calculatoare paralele comutarea încrucișată a liniilor de adresă Logica de urmărire este capabilă să deservească o cerere pe ceas Deoarece ceasul sistemului este de MHz, pot fi procesate de milioane de solicitări pe secundă sau , miliarde de solicitări pe toate cele seturi de plăci Deși în fig logica de urmărire este prezentată ca o magistrală, fizic este o structură arborescentă a dispozitivelor, în sus și în jos, pentru care sunt transmise comenzi Când o adresă este primită de la magistrala PCI sau de la procesor, aceasta trece printr-o conexiune punct la punct la un repetor de adresă, așa cum se arată în Figura De la oricare dintre cele două repetoare, adresa ajunge la placa de expansiune, de unde este transmisă înapoi în arbore la dispozitive Datorită acestei scheme, este posibil să scapi de autobuzul care leagă cele trei plăci Nivelul Nivelul Nivelul Nivelul Fig, , Conexiune pe patru niveluri a blocurilor în Sun Fire E K Liniile punctate indică transferul de adrese, liniile continue indică transferul de date Pentru schimbul de date este utilizată o conexiune pe patru niveluri (Fig ) Această abordare asigură performanțe ridicate La nivelul , perechile de procesoare și unități de memorie sunt conectate prin mici circuite de comutare încrucișată, care sunt, de asemenea, conectate la nivelul Două grupuri de perechi procesor-memorie sunt conectate printr-un al doilea circuit de comutare încrucișată la nivelul Aceste comutatoare sunt realizate sub formă de circuite integrate specifice aplicației Au intrări pentru fiecare rând și fiecare coloană a rețelei de navetă, deși nu sunt folosite toate combinațiile de rânduri și coloane (sau chiar au sens) Toată logica de comutare a plăcii se bazează pe circuite de conexiune încrucișată x Multiprocesoare Fiecare set de plăci este format din trei plăci: o placă de memorie procesor, o placă I/O și o placă de expansiune care conectează cele două plăci anterioare Comutatorul de nivel este situat pe placa de expansiune și conectează memoria însăși și porturile I/O (care sunt mapate în memorie în toate procesoarele UltraSPARC) Toate datele care intră sau ies din setul de plăci trec prin comutatorul de nivel un bloc de de octeți necesită două cicluri Acum, după ce ne-am dat seama cum sunt amplasate componentele, să trecem la memoria partajată La cel mai de jos nivel, spațiul de adrese de GB este împărțit în blocuri de de octeți Acestea sunt elementele indivizibile ale memoriei Fiecare dintre ele are propria tablă "nativă", unde blocul "locuiește" până când este nevoie de el în altă parte Majoritatea blocurilor sunt pe panourile lor de cele mai multe ori Când un procesor are nevoie de un bloc, fie că este de la propria placă sau de la oricare dintre celelalte , mai întâi solicită o copie în propriul cache, apoi lucrează cu copia stocată în cache Deși există două procesoare pe fiecare cip în sistemul E K, ele împărtășesc un spațiu de adrese comun și, prin urmare, un bloc cache comun Fiecare bloc de memorie (și fiecare linie de cache a tuturor cipurilor) poate fi în una dintre cele trei stări: + acces exclusiv (pentru înregistrare); + partajare (pentru citire); + este nevalid (adică gol) Când procesorul trebuie să scrie un cuvânt în memorie sau să-l citească din memorie, în primul rând își verifică propriul cache Dacă blocul nu este găsit acolo, o solicitare locală pentru adresa fizică a blocului este inițiată și difuzată în setul său de bord Dacă blocul dorit este găsit în memoria cache a setului de carduri, logica de urmărire determină că lovitura cache a avut loc și răspunde la cerere Dacă rândul este în acces exclusiv, acesta este transmis procesorului care l-a solicitat, iar copia originală este marcată ca nevalidă Dacă linia este partajată, aceasta nu este transmisă procesorului care a solicitat-o, deoarece memoria însăși trimite un răspuns atunci când linia cache-ului este șters Dacă logica de snooping nu poate găsi o linie de cache sau dacă linia găsită este partajată, o interogare este trimisă prin panoul central către placa nativă a blocului căutat pentru a afla unde se află blocul Starea fiecărui bloc este stocată în biții ECC, astfel încât placa poate afla imediat această stare Dacă blocul nu este partajat sau este partajat de una sau mai multe plăci la distanță, memoria de pe placa nativă va fi actualizată astfel încât placa nativă să poată îndeplini cererea În acest caz, o copie a liniei de cache în două cicluri este transmisă prin circuitul de comutare încrucișată a datelor către procesorul care a solicitat-o Dacă se face o solicitare de citire, se introduc informații în directorul de bord nativ al blocului că un alt client folosește această linie de cache (adică Capitolul Arhitecturi de calculatoare paralele este partajat), iar aceasta finalizează tranzacția Dacă se face o cerere de scriere, tuturor plăcilor care au o copie a blocului (dacă există) li se spune că blocul nu mai este valabil Acest lucru asigură că rămâne doar o copie a blocului după o solicitare de scriere Să presupunem acum că blocul se află în accesul exclusiv al plăcii de la distanță Când placa nativă primește o solicitare, caută adresa plăcii la distanță dorită în director și răspunde la cerere cu un mesaj cu informații despre locul în care se află linia cache Expeditorul trimite apoi un nou mesaj către panoul găsit Când primește o solicitare, răspunde cu linia cache solicitată După aceea, în cazul unei solicitări de citire, linia este marcată ca fiind partajată și o copie a acesteia este trimisă tabloului nativ În cazul unei cereri de scriere, respondentul își invalidează copia, acordând astfel expeditorului cererii o copie exclusivă Deoarece fiecare card conține de blocuri de memorie, directorul ar trebui să aibă de intrări în cel mai rău caz Deoarece este de fapt mult mai mic, se poate dovedi că directorul (care este căutat asociativ) nu are loc pentru unele intrări În acest caz, setul de plăci nativ ar trebui să transmită o solicitare către toate celelalte seturi de plăci pentru a localiza blocul Responsabilitatea pentru menținerea coerenței directorului și executarea protocolului de actualizare revine circuitului de răspuns încrucișat, care gestionează cea mai mare parte a traficului înapoi către expeditor Datorită separării traficului de protocol pe două magistrale (adrese și răspunsuri) și transferului de date pe a treia, debitul general al sistemului poate fi menținut la un nivel ridicat Distribuind sarcina între diferite dispozitive pe diferite plăci, Sun Fire E K poate funcționa la performanțe foarte înalte Valoarea de , miliarde de cereri pe secundă a fost deja menționată mai devreme Panoul central este capabil să suporte nouă schimburi de date simultane cu nouă plăci emițătoare și nouă plăci receptor Deoarece schema de interconectare a datelor are o lățime de de octeți, de octeți de date pot fi transferați pe ciclu de ceas La o viteză de ceas de MHz, aceasta oferă un debit maxim de GB/s atunci când toate apelurile sunt direcționate către cardurile de la distanță Dacă este posibilă aranjarea programatică a paginilor de memorie astfel încât majoritatea acceselor să fie locale, debitul maxim al sistemului va depăși semnificativ această valoare Pentru mai multe informații tehnice despre Sun Fire E K, consultați [ , ] Multiprocesoare SOMA Mașinile NUMA și CC-NUMA au un dezavantaj serios: accesările la memorie de la distanță sunt mult mai lente decât cele locale Într-o mașină CC-NUMA, această diferență de performanță este compensată într-o oarecare măsură de memoria cache Cu toate acestea, dacă cantitatea de date de la distanță solicitată este mult mai mare decât capacitatea memoriei cache, pierderile de cache vor apărea în mod constant, având un impact negativ asupra performanței Multiprocesoare Știm deja că mașinile UMA au o performanță destul de ridicată, dar numărul de procesoare din ele este mic și, în plus, sunt destul de scumpe Aparatele NC-NUMA se scalează bine, dar necesită alocarea manuală sau semi-automată a paginilor, adesea cu rezultate dezastruoase Cert este că este foarte greu să prezici unde și de ce pagini ai putea avea nevoie și, în plus, paginile sunt greu de mutat din cauza dimensiunilor lor mari Mașinile CC-NUMA, cum ar fi multiprocesorul Sun Fire E K, devin foarte lente atunci când un număr mare de procesoare necesită cantități mari de date de la distanță Într-un fel sau altul, fiecare dintre aceste scheme are dezavantaje semnificative Cu toate acestea, există un multiprocesor care rezolvă toate aceste probleme folosind memoria principală a fiecărui procesor ca memorie cache Acest sistem se numește COMA (Cache Only Memory Access) În ea, paginile nu au propriile lor mașini "acasă", ca în sistemele NUMA și CC-NUMA, de fapt, paginile din acest sistem nu au deloc "acasă" În schimb, spațiul de adrese fizice este împărțit în linii cache, care sunt deplasate liber în jurul sistemului la cerere Blocurile de memorie nu au propriile lor mașini Ei, ca și nomazii din unele țări din Lumea a Treia, au o casă unde se întâmplă Memoria care atrage șiruri după cum este necesar se numește atragerea memoriei Utilizarea memoriei principale ca cache mare crește rata de accesare a memoriei cache și, prin urmare, performanța Din păcate, nimic nu este perfect Există două probleme noi cu sistemul SOMA: + Cum sunt alocate liniile cache? + Ce să faci când șirul care este eliminat din memorie este ultima copie? Prima problemă este legată de următorul fapt După cum știți, managerul de memorie realizează traducerea unei adrese virtuale într-una fizică Dacă, după traducere, se dovedește că linia nu se află în cache-ul hardware "adevărat", este foarte greu de spus dacă linia dorită este deloc în memoria principală sau nu este acolo Suportul hardware pentru paginarea în memorie nu va ajuta aici, deoarece fiecare pagină constă dintr-un număr mare de linii cache separate care sunt situate independent unele de altele în sistem Chiar dacă se știe că linia nu este în memoria principală, cum să afli unde se află? În acest caz, nu puteți întreba mașina "acasă" a paginii pierdute despre acest lucru, deoarece pur și simplu nu există o astfel de mașină în sistem Au fost propuse mai multe soluții la această problemă Pentru a ști dacă o linie de cache este sau nu în memoria principală, o etichetă specială poate fi suportată în hardware pentru fiecare linie de cache Managerul de memorie poate compara apoi eticheta liniei dorite cu etichetele tuturor liniilor de cache până când este găsită o potrivire O altă soluție este să afișați pagini întregi, dar să nu solicitați ca toate liniile cache să fie prezente Apoi, pentru fiecare pagină, va fi necesară construirea unui bitmap în hardware, unde fiecare linie corespunde cu bit, care va indica prezența sau absența acestei linii În această schemă, care se numește Capitolul Arhitecturi de calculatoare paralele schemă COMA simplă, dacă o linie este prezentă, aceasta trebuie să fie în poziția corectă pe pagina sa Dacă lipsește, atunci orice încercare de utilizare ar trebui să arunce o excepție, care vă va permite să găsiți și să utilizați în mod programatic linia dorită Astfel, sistemul va căuta doar rândurile care sunt de fapt în memoria de la distanță O altă soluție este să dai fiecărei pagini o mașină "acasă" (acasă în sensul că îi este alocată o intrare în director, nu în sensul că datele sunt stocate pe această mașină) Apoi, pentru a vă da seama unde să căutați un șir, puteți trimite un mesaj la aparatul său de acasă O altă soluție este să organizați memoria într-o structură arborescentă și să căutați în sus până când este găsit un șir A doua problemă este legată de ștergerea ultimei copii Ca și în cazul unei mașini CC-NUMA, o linie de cache poate locui în mai multe noduri în același timp Dacă apare o pierdere a memoriei cache, linia trebuie citită, ceea ce înseamnă de obicei că este ștearsă Ce se întâmplă dacă rândul selectat este ultima copie? În acest caz, nu poate fi șters O soluție posibilă este să te întorci la director și să verifici dacă există alte copii Dacă da, atunci linia poate fi ștearsă în siguranță Dacă nu, trebuie plasat undeva O altă soluție este să marcați una dintre copiile fiecărei linii cache ca master și să nu o ștergeți niciodată Cu această abordare, nu va trebui să verificați directorul În orice caz, o mașină COMA are potențialul de a avea performanțe mai bune decât CC-NUMA, dar până acum au fost construite doar câteva mașini COMA și este nevoie de ceva experiență pentru a le realiza întregul potențial Primele aparate COMA au fost KSR- [ ] și Data Diffusion Machine [ ] Un exemplu mai recent este SDAARC [ ] Multicalculatoare După cum se arată în fig , categoria MIMD include două tipuri de procesoare cu arhitectură paralelă: multiprocesoare și multicalculatoare În secțiunea anterioară, ne-am uitat la multiprocesoare Am aflat că multiprocesoarele pot avea memorie partajată, care este accesată prin instrucțiunile obișnuite LOAD și STORE O varietate de scheme pot fi utilizate pentru a implementa o astfel de memorie, inclusiv magistralele de urmărire, rețelele cu comutare încrucișată și cu mai multe etape și diverse scheme bazate pe directoare În toate cazurile, programele scrise pentru multiprocesor pot accesa orice locație din memorie fără a avea cunoștințe despre topologia internă sau schema de implementare Datorită acestei iluzii, multiprocesoarele sunt foarte populare printre utilizatori și programatori Cu toate acestea, multiprocesoarele au și unele dezavantaje, iar acest lucru înseamnă automat că rolul multicomputerelor se întărește În primul rând, multiprocesoarele nu se scalează bine Știm deja câte dispozitive diferite au avut nevoie inginerii Sun pentru a pune în sistemul E K pentru a suporta de procesoare În ceea ce privește multicalculatoarele, Multicalculatoare apoi vom lua în considerare un sistem de de procesoare Vor trece ani înainte ca cineva să poată construi un multiprocesor comercial cu de noduri, iar până atunci vor exista multicalculatoare cu milioane de procesoare în uz Mai mult, performanța unui multiprocesor poate fi serios afectată de disputa pentru accesul la memorie Dacă de procesoare încearcă în mod constant să citească și să scrie aceleași variabile, disputele pentru resursele pentru modulul de memorie, magistrala și directorul pot afecta puternic performanța Datorită acestor și altor factori, dezvoltatorii manifestă un interes sporit pentru astfel de arhitecturi paralele de computere, în care fiecare procesor are propria memorie care nu este direct accesibilă altor procesoare Acestea sunt multicalculatoare Deoarece programele de pe diferite procesoare dintr-un multicomputer nu pot accesa memoria altor procesoare cu instrucțiunile LOAD și STORE, ele comunică între ele folosind primitivele de trimitere și recepție care sunt folosite pentru a transmite mesaje Această diferență schimbă complet modelul de programare Fiecare nod dintr-un multicomputer constă dintr-unul sau mai multe procesoare, RAM (partajată doar de procesoarele acelui nod), o unitate de disc și/sau alte dispozitive I/O și un procesor de comunicații Procesoarele de comunicație sunt interconectate printr-o rețea de comunicații de mare viteză (vezi subsecțiunea "Rețele de comunicații" de mai jos) Sunt utilizate multe topologii diferite, scheme de comutare și algoritmi de selecție a căii, dar toate multicalculatoarele au un lucru în comun: atunci când un program execută o primitivă de trimitere, procesorul de comunicație este notificat și trimite un bloc de date către mașina țintă (posibil după o cerere prealabilă și permisiunea) Schema generalizată a multicomputerului este prezentată în fig Orez Diagrama multicomputer Rețele de comunicații După cum se arată în fig , multicalculatoarele comunică între ele prin rețele de comunicații Să le luăm în considerare mai detaliat Este interesant de observat că Capitolul Arhitecturi de calculatoare paralele multicalculatoarele și multiprocesoarele sunt foarte asemănătoare în acest sens, deoarece multiprocesoarele conțin adesea mai multe module de memorie care trebuie să comunice și între ele și cu procesoarele În consecință, mare parte din ceea ce vom vorbi în această subsecțiune se aplică ambelor tipuri de arhitecturi de computere paralele Motivul principal pentru asemănarea legăturilor de comunicație într-un multiprocesor și un multicomputer este că în ambele cazuri are loc transmiterea mesajelor Chiar și într-o mașină uniprocesor, atunci când procesorul trebuie să citească sau să scrie un cuvânt, activează anumite linii pe magistrală și așteaptă un răspuns Acest lucru este aproximativ același cu mesajul: inițiatorul trimite o solicitare și așteaptă un răspuns La multiprocesoarele mari, atunci când comunică între procesoare și memoria de la distanță, procesorul aproape întotdeauna trimite un mesaj în memorie, așa-numitul pachet, în care sunt solicitate anumite date, iar memoria trimite un pachet de răspuns către procesor Topologie Topologia unei rețele de comunicații determină dispunerea liniilor de comunicație și a comutatoarelor (poate fi, de exemplu, un inel sau o rețea) Se obișnuiește să se descrie topologia rețelelor sub formă de grafice în care arcurile corespund liniilor de comunicație, iar nodurile corespund comutatoarelor (Fig ) Fiecare nod din rețea (sau din graficul corespunzător) are asociat un set specific de legături de comunicație Matematicienii numesc numărul de linii gradul nodului, inginerii - factorul de ramificare Cu cât gradul este mai mare, cu atât mai multe opțiuni de rută și toleranța la erori este mai mare Dacă fiecare nod conține k arce și conexiunile sunt realizate corect, este posibil să se construiască o rețea de comunicații astfel încât să rămână complet conectată chiar dacă k - linii sunt deteriorate Următoarea caracteristică a unei rețele de comunicații este diametrul acesteia Dacă considerăm că distanța dintre două noduri este numărul de arce care trebuie trecute pentru a ajunge de la un nod la altul, atunci diametrul graficului este distanța dintre cele două noduri situate cel mai departe unul de celălalt Diametrul rețelei determină cea mai mare întârziere în transferul pachetelor de la un procesor la altul sau de la procesor la memorie, deoarece fiecare transfer prin linia de comunicație durează o anumită perioadă de timp Cu cât diametrul este mai mic, cu atât performanța este mai mare Distanța medie dintre o pereche de noduri este, de asemenea, de mare importanță, deoarece timpul mediu de transmisie a pachetelor depinde de aceasta O altă caracteristică importantă a unei rețele de comunicații este lățimea de bandă, adică cantitatea de date pe care o poate transmite pe secundă Cea mai utilă măsurătoare de debit este debitul de secțiune Pentru a calcula această valoare, trebuie să împărțiți mental rețeaua de comunicații în două părți egale (din punct de vedere al numărului de noduri) neconectate, eliminând un număr de arce din grafic și apoi să calculați debitul total al arcelor eliminate Debitul unei secțiuni este debitul minim (pentru toate opțiunile disponibile) De exemplu, o secțiune transversală de bps înseamnă că, dacă există multe legături între două părți ale rețelei, debitul total va fi de numai bps în cel mai rău caz Potrivit multor dezvoltatori, trecerea Multicalculatoare Capacitatea transversală este cea mai importantă caracteristică a unei rețele de comunicații Adesea, obiectivul principal stabilit de proiectanții unei rețele de comunicații este de a obține debitul maxim al unei secțiuni Orez, Diverse topologii Punctele aldine corespund comutatoarelor Procesoarele și modulele de memorie nu sunt afișate: stea (a); relație completă (b); copac (în); inel (g); zăbrele (d); dublu torus (e); cub (w); hipercub cu patru dimensiuni (h) Rețelele de comunicații pot fi caracterizate prin dimensiunile lor Dimensiunea este determinată de numărul de opțiuni posibile pentru trecerea de la sursă la receptor Dacă nu există nicio opțiune (adică există o singură cale de la fiecare sursă la fiecare chiuvetă), atunci rețeaua este zero-dimensională Dacă sunt două posibile Capitolul Arhitecturi de calculatoare paralele opțiune (de exemplu, fie la est, fie la vest), atunci rețeaua este unidimensională Dacă există două axe, iar pachetul poate merge spre est sau vest, sau nord sau sud, atunci se spune că o astfel de rețea este bidimensională și așa mai departe Pe fig prezintă mai multe topologii Aici sunt afișate doar liniile de comunicație și comutatoarele (sub formă de puncte) Modulele de memorie și procesoarele (nu sunt prezentate în figură) sunt conectate la comutatoare prin interfețe Pe fig a prezintă o configurație stea zero-dimensională, în care procesoarele și modulele de memorie sunt conectate la noduri externe, iar comutarea este efectuată de nodul central O astfel de schemă este foarte simplă, dar într-un sistem mare, comutatorul central va fi blocajul sistemului În ceea ce privește toleranța la erori, aceasta este, de asemenea, o schemă foarte nefericită, deoarece defecțiunea unui comutator central provoacă prăbușirea întregului sistem Pe fig , b prezintă o altă topologie zero-dimensională - interconectare completă Aici, fiecare nod este conectat direct la toate celelalte Într-o astfel de schemă, debitul secțiunii este maxim, diametrul este minim și toleranța la erori este foarte mare (chiar și cu pierderea a șase linii de comunicație, sistemul rămâne complet conectat) Cu toate acestea, pentru k noduri, sunt necesare k(k - )/ canale, iar acest lucru este complet inacceptabil pentru valori mari ale lui k Următoarea topologie este un arbore (Fig , c) Aici principala problemă este că lățimea de bandă a secțiunii este egală cu lățimea de bandă a liniei de comunicație De obicei, traficul principal este observat în vârful arborelui, astfel încât nodurile superioare devin blocajul întregului sistem Pentru a rezolva această problemă, este necesar să creșteți debitul secțiunii prin creșterea debitului legăturilor superioare De exemplu, legăturile cele mai de jos ar putea avea capacitatea b, următorul strat ar putea fi al -lea, iar fiecare legătură din stratul superior ar putea fi al -lea O astfel de schemă, numită arbore gras, a fost folosită în multicomputerele comerciale CM- ale Thinking Machines Inelul (Figura d) este o topologie unidimensională deoarece fiecare pachet trimis poate merge la dreapta sau la stânga O grilă sau grilă (Figura , ) este o topologie bidimensională care este utilizată în multe sisteme comerciale Este obișnuit și ușor de scalat, iar diametrul său este rădăcina pătrată a numărului de noduri (adică atunci când sistemul este scalat, diametrul crește ușor) Torul dublu (Fig , e) este un tip de rețea în care marginile sunt conectate Această topologie este mai tolerantă la erori și are un diametru mai mic decât o plasă convențională, deoarece are doar două sărituri între două noduri opuse O altă topologie populară este torul D Această topologie este descrisă de o structură tridimensională ale cărei noduri sunt în punctele (i, j, k), iar toate coordonatele sunt numere întregi în intervalul de la ( , , ) la (/, m, n) Fiecare nod are șase vecini, doi de-a lungul fiecărei axe de coordonate, iar nodurile extreme de pe muchiile opuse sunt conectate între ele, la fel ca în tori bidimensional Cubul (Figura g) este o topologie tridimensională obișnuită Figura arată un cub x x , dar în general ar putea fi un cub k x k x k Figura h prezintă un cub D format din două cuburi D care sunt legate între ele Poate fi realizat în cinci dimensiuni Multicalculatoare cub prin conectarea între ele a cuburi cu patru dimensiuni Pentru a obține dimensiuni, trebuie să duplicați un bloc de cuburi și să conectați nodurile corespunzătoare etc Un cub n-dimensional se numește hipercub (Fig , h) Această topologie este utilizată în multe arhitecturi de computere paralele, deoarece diametrul său depinde liniar de dimensiune Cu alte cuvinte, diametrul este logaritmul de bază al numărului de noduri, deci un hipercub cu dimensiuni are de noduri, dar diametrul este de numai , ceea ce dă foarte puțină întârziere în transferul de date Rețineți că rețeaua de x , care conține și de noduri, are un diametru de , de peste șase ori mai mare decât cel al hipercubului Prețul care trebuie plătit pentru un diametru mai mic de hipercub este o creștere a numărului de ramuri și, prin urmare, a liniilor de comunicație Cu toate acestea, hypercube este soluția de bază pentru sistemele de înaltă performanță Multicomputerele au o asemenea varietate de forme și dimensiuni, încât este foarte dificil să construiți o clasificare inteligibilă pentru ele Cu toate acestea, se pot distinge două "stiluri" principale - acestea sunt procesoare și clustere masiv paralele Le vom lua în considerare pe rând Procesoare masiv paralele Procesoarele Massively Parallel (MPP) sunt supercomputere masive de mai multe milioane de dolari Sunt folosite în diverse ramuri ale științei și tehnologiei pentru a efectua calcule complexe, a procesa un număr mare de tranzacții pe secundă, a gestiona baze de date mari etc Inițial, acestea erau supercalculatoare concepute în principal pentru calcule științifice, dar acum multe dintre ele sunt folosite în comerț Într-un fel, ei sunt moștenitorii mainframe-urilor puternice din anii ' (deși legătura dintre ele este la fel de efemeră ca între o vrabie și un tiranozaur rex) În general, se poate spune că multicalculatoarele MPP au înlocuit mașinile SIMD, supercalculatoarele vectoriale și procesoarele matrice din vârful lanțului trofic al computerelor Majoritatea mașinilor MPP folosesc procesoare standard Acestea pot fi procesoare Intel Pentium, Sun UltraSPARC, IBM RS/ și DEC Alpha Multicomputerele se remarcă prin prezența unei rețele de comunicații de înaltă performanță prin care mesajele pot fi transmise cu latență scăzută și lățime de bandă mare Ambele caracteristici (latența și debitul) sunt foarte importante, deoarece mesajele sunt în general de dimensiuni mici (mai puțin de de octeți), deși mesajele mari (mai mult de KB) au contribuția principală la traficul total Multicomputerele MPP vin cu software și biblioteci foarte scumpe O altă caracteristică a MPP-urilor este cantitățile lor uriașe de I/O Multicomputerele MPP trebuie de obicei să proceseze cantități uriașe de date, uneori teraocteți Aceste date trebuie să fie răspândite pe mai multe discuri și trebuie să fie transferate cu viteză mare între dispozitivele mașinii Capitolul Arhitecturi de calculatoare paralele În cele din urmă, este important să ținem cont de o altă caracteristică a MPP - toleranța la erori Cu mii de procesoare, mai multe erori pe săptămână sunt inevitabile Încetarea unui sistem din cauza unei defecțiuni la unul dintre procesoare este inacceptabilă, mai ales dacă se așteaptă să apară defecțiuni în fiecare săptămână Prin urmare, în mașinile MPP mari, există întotdeauna suport hardware și software specializat pentru monitorizarea continuă a sistemului, detectarea problemelor și corectarea acestora Acum, teoretic, ar fi necesar să se studieze principiile de bază ale organizării mașinilor MPP, dar aceste principii, să spun adevărul, nu sunt deloc multe În această etapă, este suficient să știm că o mașină MPP este o serie de noduri de calcul mai mult sau mai puțin standard conectate între ele printr-o rețea de comunicații de mare viteză Prin urmare, mai jos vom lua în considerare doar câteva exemple specifice de mașini MPP, în special BlueGene și Red Storm bluegene Ca prim exemplu de procesor cu paralelism masiv, luați în considerare sistemul IBM BlueGene Acest proiect a fost conceput de IBM în ca un supercalculator pentru rezolvarea unor probleme de calcul de mare complexitate în biologie În special, biologii cred că funcțiile unei proteine sunt determinate de structura sa tridimensională Dar determinarea formei chiar și a unei mici molecule de proteină pe supercalculatoarele din acea vreme ar fi necesitat câțiva ani de calcul În același timp, în corpul uman există aproximativ jumătate de milion de proteine diferite, dintre care unele sunt extrem de complexe, iar încălcările structurii oricăreia pot duce la boli ereditare grave În mod evident, calcularea structurii tridimensionale a tuturor proteinelor umane necesită mai multe ordine de mărime mai multă putere de calcul, iar modelarea formei unei molecule de proteine este doar una dintre sarcinile pe care proiectul BlueGene își propune să le rezolve Sarcini la fel de complexe din dinamica moleculară, modelarea climei, astronomie și chiar modelarea financiară necesită, de asemenea, supercalculatoare îmbunătățite Simțind nevoia pieței de supercomputere, IBM a investit de milioane de dolari în dezvoltarea și construcția BlueGene În noiembrie , a apărut primul client al primului computer din familia BlueGene numit BlueGene / L Clientul a fost Laboratorul Național Livmore, care funcționează sub supravegherea Departamentului de Energie al SUA Scopul proiectului BlueGene a fost de a construi o mașină MPP care să fie nu numai cea mai rapidă, ci și cea mai eficientă în termeni de teraflop/dolar, teraflop/watt și teraflop/m Din acest motiv, IBM a abandonat principiile care au stat la baza dezvoltării mașinilor MPP anterioare, conform cărora erau utilizate cele mai rapide componente, indiferent de costul acestora În schimb, s-a decis să-și lanseze propria componentă cu un singur cip, care funcționează la o viteză moderată și cu un consum redus de energie, pentru a construi o mașină mare, cu un layout eficient al componentelor pe baza acesteia Primul cip a apărut în iunie , iar primul trimestru al BlueGene / L de de noduri de calcul a fost complet operațional în noiembrie În același timp, a fost certificat Calculatoare multiple Wana este cel mai rapid supercomputer de pe Pământ, cu o performanță de teraflopi/s Cu un consum de energie de , megawați, acest sistem a fost și un câștigător de clasă în cursa eficienței energetice cu , megaflops/watt În total, sistemul ar trebui să conțină de noduri Inima sistemului BlueGene/L este un nod format dintr-un microcircuit specializat, a cărui structură este prezentată în fig Este format din două nuclee PowerPC care rulează la MHz PowerPC este un procesor superscalar dublu canalizat popular în sistemele încorporate Fiecare nucleu are o pereche de unități duble în virgulă mobilă (Floating Point Unit, FPU), care în total vă permit să executați instrucțiuni în virgulă mobilă într-un singur ciclu Aceste blocuri sunt suplimentate cu suport pentru comenzi SIMD, care pot fi utile la procesarea matricelor Astfel, din punct de vedere al performanțelor, acest procesor nu poate fi clasat printre campioni Procesor South Ethernet Partea de jos Orez Microprocesor specializat în sistemul BlueGene/L Cele două procesoare de pe acest cip sunt identice, dar sunt programate separat Primul este propus pentru a fi folosit pentru calcule, iar al doilea - pentru interacțiunea cu restul de de noduri Cipul acceptă trei niveluri de stocare în cache Primul nivel cache este separat, are KB pentru comenzi și alți KB pentru date Cache-urile L de pe cele două procesoare nu sunt consistente deoarece nucleele standard PowerPC nu acceptă această caracteristică și s-a decis să nu le modifice special pentru acest proiect Dimensiunea cache-ului L combinat este de KB În realitate, acestea nu sunt atât cache-uri, cât buffer-uri de preluare preliminară În cache-urile de al doilea nivel Capitolul Arhitecturi de calculatoare paralele se numește un mecanism de urmărire reciprocă, datorită căruia le este menținută consistența Al treilea nivel este reprezentat de un cache contigu de MB care este partajat de ambele cache de nivel al doilea Un acces la memorie care provoacă o pierdere a memoriei cache la primul nivel și o atingere a memoriei cache la al doilea nivel este procesat ȘI ceasuri Cu o pierdere de cache la al doilea nivel, o lovitură de cache la al treilea nivel este deja procesată timp de de cicluri În cele din urmă, în cazul unei pierderi de cache la al treilea nivel, trebuie accesată memoria principală (DDR SDRAM), ceea ce durează aproximativ de cicluri Un mic modul de memorie (SRAM) este conectat la cache-urile de al doilea nivel Modulul SRAM, la rândul său, este conectat la pinii JTAG și este destinat pentru depanare, încărcare și interacțiune cu gazda principală care stochează stiva de sistem, precum și furnizarea de semafore și alte mijloace de sincronizare Pentru un nivel superior, în IBM a fost dezvoltată o placă specializată, pe care este instalată o pereche de microcircuite descrise, precum și GB RAM În versiunile viitoare, placa ar trebui să instaleze până la GB de memorie Microcircuitul este prezentat în , iar placa este prezentată în fig b MB /SDRAM ? -MBg/ 'SDRAM EI; SSSi ! Sistem de rack pentru panouri IC chipsuri plăci panouri rafturi GB cipuri plăci panouri GB cipuri plăci GB cipuri TB a B C D E Orez BlueGene/L: cip (a), placă (b), panou (c), rack (d), sistem (e) Plăcile sunt montate pe un panou încastrat, plăci pe panou, ceea ce oferă de cipuri (adică de procesoare de calcul) pe panou Deoarece fiecare placă are un SDRAM de GB, placa are un total de GB de memorie (Fig , c) La nivelul următor, dintre aceste panouri sunt introduse în partea de sus a rackului, celelalte în partea de jos, rezultând un rack de x cm M ulticalculatoare procesoare Cele două grupuri de panouri sunt separate printr-un comutator, datorită căruia un grup poate fi scos din sistem pentru întreținere, în timp ce se conectează un grup de rezervă Standul este prezentat în fig ora În cele din urmă, întregul sistem, constând din de procesoare de calcul și de procesoare de comunicații, este prezentat în Fig , e Cu de unități aritmetice duble întregi și de unități duble cu virgulă mobilă, sistemul trebuie să proceseze până la de instrucțiuni pe ciclu Cu toate acestea, una dintre unitățile aritmetice întregi este dedicată pregătirii datelor pentru unitățile în virgulă mobilă, astfel încât debitul maxim scade la de instrucțiuni pe ciclu sau , x IO instrucțiuni pe secundă Astfel, acest sistem este cel mai mare computer construit vreodată în lume Sistemul este un multicomputer în sensul că niciunul dintre procesoare nu are acces direct la memorie, cu excepția celor MB de memorie nativă de pe placă Nicio pereche de procesoare nu are memorie partajată De asemenea, apelarea paginilor la cerere nu este acceptată deoarece nu există discuri locale care să găzduiască paginile În schimb, sistemul are de noduri I/O care se conectează la unități și alte periferice În ciuda dimensiunii excepționale a sistemului, acesta este destul de simplu și nu folosește nicio tehnologie specială, cu excepția poate pentru plasarea nodurilor extrem de dense Nu este o coincidență, deoarece obiectivele principale erau fiabilitatea și disponibilitatea În consecință, sistemele de alimentare, sistemele de răcire, sistemele de cabluri etc , au fost proiectate foarte atent, toate acestea făcând posibilă creșterea timpului mediu dintre defecțiuni la zile Conectarea tuturor cipurilor necesită o interconectare scalabilă și de înaltă performanță Ca topologie a fost ales un tor tridimensional cu dimensiunea de x x Astfel, fiecare cip necesită linii de comunicație: pentru vecinii amplasați logic deasupra și dedesubt, pentru vecinii din nord și sud, pentru vecinii din vest și est (vezi simbolurile corespunzătoare din Fig ) Din punct de vedere structural, fiecare rafturi pentru noduri formează un torus de x x O pereche de rafturi adiacente sunt conectate la un tor de x x Patru perechi de rafturi de pe un rând formează un torus de x x și, în cele din urmă, toate cele rânduri dau un torus care măsoară x x Astfel, toate conexiunile sunt punct la punct și funcționează la , Gbps Deoarece există trei legături de la fiecare dintre cele de noduri către nodurile "următoare în ordine", câte una pentru fiecare dimensiune, debitul total al sistemului este de TB/s Capacitatea de informații a cărții pe care o țineți în mână, inclusiv desenele PostScript încapsulate, este de aproximativ de milioane de biți, astfel încât BlueGene/L poate transfera până la de copii ale acesteia într-o secundă Unde să puneți aceste copii și cine le-ar putea citi - lăsăm aceste întrebări cititorului Interacțiunea într-un torus D este susținută sub formă de rutare virtuală prin tăiere Această abordare este oarecum similară cu comutarea stocare și redirecționare (consultați secțiunea Coprocesoare), cu excepția faptului că înainte de a trece mai departe cu Capitolul Arhitecturi de calculatoare paralele pachetele de legături nu sunt salvate în întregime De îndată ce următorul octet al pachetului ajunge la nodul de tranzit, acesta este transmis mai departe de-a lungul rutei fără a aștepta primirea întregului pachet Sunt permise atât rutarea dinamică (adaptativă), cât și cea statică (fixă) Pentru a implementa rutarea virtuală end-to-end, există mai multe dispozitive specializate pe cip Pe lângă torul D principal care asigură comunicarea, există și alte rețele de comunicații A doua rețea are o structură arborescentă În sistemele extrem de concurente, cum ar fi BlueGene/L, multe operațiuni necesită participarea tuturor nodurilor Ca exemplu, luați în considerare problema găsirii celei mai mici dintre de valori, fiecare dintre acestea fiind stocată într-un nod separat Dacă toate nodurile sunt conectate într-o structură arborescentă, fiecare două noduri își pot trimite valorile către nodul superior, care îl poate alege pe cel mai mic și îl poate trece mai sus Cu această abordare, doar minimul necesar de informații intră în nodul rădăcină (imaginați-vă dacă fiecare dintre cele de noduri ar transmite direct un mesaj către nodul rădăcină) A treia rețea este utilizată pentru suspendări și întreruperi globale Unii algoritmi necesită execuție în etape, când fiecare nod, după ce și-a încheiat etapa, nu trece la următorul, ci așteaptă până când toți ceilalți termină aceeași etapă O rețea de barieră specială vă permite să setați în mod programatic aceste etape și să suspendați calculele pe toate procesoarele care și-au încheiat etapa înainte de restul Când toți procesoarele își termină etapa, calculul continuă Aceeași rețea de barieră este utilizată pentru întreruperi A patra și a cincea rețea se bazează pe tehnologia Gigabit Ethernet Unul dintre ele conectează nodurile I/O la servere de fișiere non-BlueGene/L și la Internet; celălalt este folosit pentru a depana sistemul Fiecare nod de calcul și comunicații rulează un mic sistem de operare specializat care acceptă un utilizator și un proces Un proces poate avea două fire de execuție de program, câte unul pentru fiecare procesor dintr-un nod Această structură simplă a fost aleasă pentru performanța și fiabilitatea sa ridicată Pentru a îmbunătăți fiabilitatea, o aplicație poate crea un punct de salvare apelând o procedură de bibliotecă După ce rețeaua a terminat de transmis toate mesajele care nu au fost încă transmise, puteți crea un punct de salvare global, astfel încât, în cazul în care sistemul se blochează, lucrarea să poată fi pornită din acest punct și nu de la început Nodurile I/O rulează sistemul de operare tradițional Linux și acceptă multitasking Informații suplimentare despre BlueGene/L pot fi găsite în [ , , , ] Furtuna Rosie Ca un al doilea exemplu de sisteme MPP, luați în considerare Furtuna Roșie a Laboratoarelor Naționale Sandia (numită și ciocanul lui Thor) Laboratorul Sandia efectuează misiuni clasificate și neclasificate pentru Departamentul de Energie al SUA Printre lucrările clasificate se numără simularea exploziilor nucleare, care necesită calcule foarte intense Calculatoare multiple Sandia este în afaceri de mult timp și are de mulți ani cele mai puternice supercomputere Timp de zeci de ani, supercomputerul vectorial a fost preferat aici, dar la un moment dat, datorită dezvoltării tehnologiei și schimbărilor din economie, mașinile MPP au început să le înlocuiască Începând din , mașina MPP folosită atunci numită ASCI Red a început să "alunece" din ce în ce mai mult Deși avea de noduri, împreună au oferit doar , TB de RAM și , TB de spațiu pe disc, iar sistemul în ansamblu s-a luptat să mențină performanța de teraflops/s Așa că în , Sandia a decis să înlocuiască ASCI Red alegând Cray Research ca furnizor pe termen lung de supercalculatoare Noul sistem a fost livrat în august , ceea ce este foarte rapid pentru dezvoltarea și implementarea unei mașini atât de mari Motivul pentru această viteză este că multicomputerul Red Storm este construit aproape exclusiv din componente convenționale disponibile comercial Singura excepție este un cip specializat folosit pentru rutare Pentru Red Storm a fost ales un procesor AMD Opteron Această alegere a fost determinată de câteva dintre caracteristicile sale cheie Primul este menținerea a trei moduri de funcționare În modul vechi, acest procesor poate rula programe Pentium obișnuite fără nicio modificare În modul de compatibilitate, sistemul de operare rulează pe de biți și poate adresa până la de biți de memorie, în timp ce programele de aplicație sunt pe de biți În cele din urmă, în modul pe de biți, întreaga mașină devine pe de biți și poate adresa întreg spațiul de adrese de de biți Mai mult, atât programele pe de biți, cât și pe de biți pot rula simultan în modul pe de biți, ceea ce simplifică actualizările de sistem O altă caracteristică cheie a Opteron este luarea în considerare atentă a lățimii de bandă a memoriei În ultimii ani, procesoarele au devenit din ce în ce mai rapide, depășind semnificativ memoria în această cursă Ca rezultat, în cazul unei pierderi de cache în memoria cache de al doilea nivel, timpul de acces la memorie crește semnificativ Inginerii AMD au instalat un controler de memorie în procesorul Opteron care rulează la frecvența procesorului în loc de frecvența magistralei de memorie, ceea ce îmbunătățește performanța memoriei Controlerul poate gestiona opt DIMM-uri de GB pentru un maxim de GB de memorie Sistemul Red Storm setează - GB pentru fiecare procesor Opteron, dar nu există nicio îndoială că în timp, pe măsură ce memoria devine mai ieftină, această valoare va crește O altă oportunitate de îmbunătățire a performanței sistemului este înlocuirea procesoarelor Opteron cu modele dual-core, care teoretic ar trebui să dubleze puterea de procesare Fiecărui procesor Opteron i se atribuie propriul procesor de rețea dedicat, numit IBM Seastar Acesta este un element critic al sistemului, deoarece aproape tot schimbul de informații între procesoare are loc prin intermediul rețelei Seastar Fără rețeaua de comunicații de mare viteză pe care o suportă aceste cipuri, sistemul s-ar îneca rapid în date În timp ce procesoarele Opteron sunt procesoare disponibile comercial, Red Storm le instalează pe propriile plăci dedicate Capitolul Arhitecturi de calculatoare paralele (Fig ) Fiecare astfel de placă are procesoare Opteron, GB RAM, procesoare Seastar, un procesor RAS (Reliability, Availability and Service), un cip Ethernet de Mbps Un set de opt plăci este instalat în panou și introdus în casetă Fiecare rack are dintre aceste casete, permițându-vă să instalați de procesoare Opteron, precum și sursele de alimentare și sistemul de răcire necesare Întregul sistem este format din rack-uri, oferind de procesoare cu module de memorie SDRAM de TB Fiecare procesor are acces doar la propriul modul SDRAM, nu există memorie partajată Puterea teoretică de calcul a sistemului este de teraflops/s Procesoarele Opteron separate sunt interconectate folosind routere specializate Seastar, câte un router per CPU Ele sunt conectate între ele într-un tor tridimensional care măsoară x x , în fiecare nod din care există un router Fiecare router are linii de comunicație bidirecționale de mare viteză ( Gb/s) Șase dintre ele duc la vecini: nord, est, sud, vest, sus și jos, iar un altul conectează routerul la procesorul Opteron Timpul de transmisie între nodurile rețelei vecine este de µs Este nevoie de µs pentru a parcurge întregul set de noduri de calcul O altă rețea se bazează pe tehnologia Ethernet de Mbps și servește la deservirea și sprijinirea sistemului Calculatoare multiple Pe lângă cele rafturi de calcul, sistemul are rafturi I/O și procesoare de service Fiecare dintre ele are de procesoare Opteron Dintre aceste procesoare, sunt responsabile pentru I/O și pentru întreținere Restul spațiului este ocupat de unități organizate pe nivelurile RAID și , fiecare cu o unitate de paritate și o unitate hot-swap Cantitatea totală de spațiu pe disc este de TB Debitul combinat al sistemului de discuri este de GB/s Sistemul, folosind întrerupătoare mecanice, este împărțit în două părți, secrete și non-secrete, care, dacă este necesar, pot fi separate Din numărul total de procesoare, sunt întotdeauna în secțiunea secretă, alți sunt întotdeauna în cea non-secretă Cele de procesoare de calcul rămase pot fi comutate între secțiuni, așa cum se arată în Fig Toate procesoarele Opteron din secțiunea secretă au GB memorie, toate celelalte au GB I/O și procesoarele de întreținere sunt împărțite între secțiuni I/O și nod de întreținere Intrerupator Nod de calcul □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ TB stocare pe disc V , y J de rafturi secrete ( procesoare Opteron) de rafturi comutabile de rafturi neclasificate ( procesoare Opteron) TB stocare pe disc □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ Orez Sistem Red Storm, vedere de sus Întregul sistem este găzduit într-o clădire separată de m , proiectată și construită pentru a extinde sistemul la de procesoare, dacă este necesar în viitor Consumul de energie al nodurilor de calcul este de , MW, discurile consumă încă MW Împreună cu sistemul de ventilație și aer condiționat, consumul total de energie este de , MW Hardware-ul și software-ul computerului au costat de milioane de dolari, clădirea și ventilația au costat alte milioane de dolari, pentru un total de puțin sub de milioane de dolari, deși o parte din acești bani sunt costuri unice de dezvoltare Adică, dacă vrei să obții o copie exactă, pregătește aproximativ de milioane de dolari În plus, Sgau se așteaptă să vândă versiuni reduse ale sistemului organizațiilor guvernamentale și private sub numele HZT Nodurile de calcul funcționează sub controlul unui nucleu ușor numit Catamount ("pisică sălbatică") Nodurile I/O sunt gestionate de sistemul de operare Linux obișnuit cu câteva completări pentru a sprijini interfața MPI (vezi mai târziu în acest capitol) Nodurile RAS rulează o versiune simplificată de Linux Pe Roșu Capitolul Arhitecturi de calculatoare paralele Storm poate rula o multitudine de programe ASCI Red, inclusiv alocatoare CPU, programatori, biblioteci MPI, biblioteci de matematică, programe de aplicație Pentru un sistem atât de mare, problemele de fiabilitate vin în prim-plan Fiecare placă conține un procesor RAS conceput pentru a deservi sistemul, precum și hardware specializat Scopul dezvoltatorilor a fost realizarea unui MTBF (Meap Time Between Failures - Mean Time Between Failures) egal cu de ore Hardware-ul ASCI Red avea această cifră de de ore, dar sistemul de operare a distrus totul - o defecțiune completă a sistemului a avut loc la fiecare de ore Și deși noul hardware este mult mai fiabil decât vechiul, punctul slab este totuși software-ul Mai multe detalii despre Red Storm pot fi găsite în [ ] Comparație între sistemele BlueGene/L și Red Storm Sistemele BlueGene/L și Red Storm, fiind asemănătoare din multe puncte de vedere, au multe diferențe, așa că este destul de interesantă compararea lor între ele În tabel arată valorile unora dintre parametrii lor cheie Tabelul Comparație între sistemele BlueGene/ și Red Storm Parametrul BlueGene/L Red Storm CPU -bit PowerPC -bit Opteron Frecvență MHz GHz Număr de procesoare de calcul Numărul de procesoare la bord Numărul de procesoare pe rack Număr de rafturi de calcul Performanța teraflop/s Memorie per procesor MB - GB Memorie totală TB TB Router PowerPC Seastar Număr de routere Topologie Dimensiune Tor x x Dimensiune Tor x x Rețele Gigabit Ethernet Fast Ethernet suplimentare Posibilitate de împărțire în secțiuni Nu Da OS pentru noduri de calcul Specializate Specializate I/O OS Linux Linux Producător: IBM Cray Research Cost ridicat ridicat Multicalculatoare Aceste două mașini au fost construite cam în același timp, așa că diferențele dintre ele sunt determinate nu de tehnologie, ci de înclinațiile dezvoltatorilor și, de asemenea, într-o oarecare măsură, de diferențele dintre IBM și Cray Sistemul BlueGene/L a fost conceput de la început ca o mașină comercială pentru vânzare către companii de biotehnologie, farmaceutice și alte companii În schimb, sistemul Red Storm a fost construit personalizat de Sandia Labs, iar Cray intenționează să ofere spre vânzare versiuni reduse ale sistemului Abordarea IBM este foarte simplă: să construiești un microcircuit, deși specializat, dar cu viteză redusă și ieftin în producția de masă, din nuclee existente, și apoi să combine un număr foarte mare de aceste microcircuite cu o rețea nu foarte mare Sandia a adoptat o abordare diferită, dar la fel de înțeleasă: luați cel mai puternic procesor pe de biți de pe piață, echipați-l cu un router personalizat de mare viteză și mai multă memorie, rezultând noduri de calcul mult mai puternice decât nodurile BlueGene/L Astfel de noduri vor necesita mult mai puțin, prin urmare, schimbul de informații între ele va avea loc, respectiv, mai rapid Fiecare decizie a afectat plasarea elementelor într-un mod diferit Datorită faptului că IBM a dezvoltat un cip specializat care a combinat procesorul și routerul, a fost posibil să se obțină o densitate de ambalare mai mare - procesoare într-un rack Sansia a instalat un procesor de masă convențional și - GB de memorie pe nod, astfel încât doar de procesoare de calcul puteau încăpea în rack Ca rezultat, Red Storm ocupă mai mult spațiu și consumă mai multă energie decât BlueGene/L În lumea exotică a laboratoarelor naționale de cercetare, performanța este cheia În acest parametru, BlueGene / L câștigă, deoarece performanța acestui sistem este de teraflopi/s față de teraflopi/s pentru Red Storm Dar nu trebuie să uităm că designul lui Red Storm este extensibil, așa că prin introducerea a încă de procesoare Opteron (prin trecerea la tehnologia dual-core, de exemplu), Sandia poate împinge probabil performanța până la teraflopi/s Cu toate acestea, IBM este capabil să răspundă la aceasta crescând ușor frecvența ceasului (într-adevăr, frecvența de MHz nu este foarte impresionantă) Cu alte cuvinte, supercalculatoarele MPP nu au atins încă limita fizică a puterii lor și vor continua să se dezvolte mulți ani de acum înainte Cluster Computing O altă variantă a unui multicomputer este un computer cluster [ , ] De regulă, un cluster este format din câteva sute sau mii de computere personale sau stații de lucru conectate printr-o rețea și sunt conectate la rețea printr-o placă de rețea convențională Diferența dintre un MPP și un cluster este aceeași ca între un mainframe și un computer personal Ambele au procesor, RAM, discuri, un sistem de operare etc Dar pe mainframe totul (cu posibila excepție a sistemului de operare) rulează mult mai repede și, din această cauză, sunt folosite și gestionate în complet diferit moduri Același lucru se poate spune despre MPP-uri și clustere Capitolul Arhitecturi de calculatoare paralele Până acum câțiva ani, interacțiunea dintre elementele care formează MRR era mult mai rapidă decât între mașinile care alcătuiesc clusterul Cu toate acestea, odată cu apariția rețelelor de mare viteză pe piață, acest decalaj a început să dispară Este probabil ca clusterele să înlocuiască treptat mașinile MMP, la fel cum computerele personale au înlocuit mainframe-urile, care sunt acum folosite doar în domenii foarte specializate Principala nișă pentru sistemele MMP va rămâne supercalculatoarele scumpe, în care principalul lucru este performanța, iar problemele de cost nu sunt decisive Există multe tipuri de clustere, dintre care două domină: centralizate și descentralizate Centralizat este un grup de stații de lucru sau computere personale montate într-o structură mare în aceeași cameră Uneori sunt amplasate mai compact decât de obicei pentru a reduce dimensiunea fizică și lungimea cablului De regulă, toate mașinile incluse în cluster sunt omogene și nu au niciun dispozitiv periferic, cu excepția plăcilor de rețea și, eventual, a unităților de disc Gordon Bell, designerul PDP- și VAX, le-a numit stații de lucru fără cap, sugerând că aceste mașini nu aveau proprietari Clusterele descentralizate constau din stații de lucru sau computere personale împrăștiate într-o clădire sau campus Majoritatea dintre ei stau inactiv multe ore pe zi, mai ales noaptea De obicei, acestea sunt conectate printr-o rețea locală Sunt eterogene și au un set complet de periferice, deși un grup cu o mie de șoareci nu este mai bun decât un grup fără șoareci Cel mai important, multe dintre mașinile din cluster au proprietari, fiecăruia dintre care nu le pasă de mașina lui și nu este foarte loial faptului că vreun astronom încearcă să-l implice în calcule legate de teoria big bang-ului Dacă, pe de altă parte, utilizați numai mașini inactive pentru a organiza clusterul, cu siguranță aveți nevoie de un fel de mecanism de migrare a jobului pentru a elibera mașina atunci când proprietarul are nevoie de el Deși problema migrării locurilor de muncă este destul de rezolvabilă, soluția necesită o complexitate software suplimentară Clusterele sunt adesea mici, variind de la o duzină la poate de computere Cu toate acestea, este posibil să construiți un cluster foarte mare din PC-uri obișnuite Google a venit cu un mod interesant de a face acest lucru, pe care îl vom analiza aici Google Google este un motor de căutare de informații popular pe Internet Își datorează popularitatea simplității interfeței și timpului redus de răspuns, deși elementele interne ale Google pot fi numite orice, decât simple Din punctul de vedere al motorului de căutare, sarcina este de a indexa și stoca întregul World Wide Web (care este de peste miliarde de pagini și un miliard de imagini), apoi găsiți pagina dorită printre informațiile stocate în , secunde, deservește o mie de solicitări pe secundă care vin non-stop din toată lumea În plus, sistemul nu ar trebui să se defecteze niciodată, chiar și în caz de dezastre naturale, întreruperi de curent și rețea, defecțiuni hardware și software Dezvoltarea unei clone Google cu siguranță nu este un exercițiu pentru cititor Multicalculatoare Cum face Google toate acestea? Funcționarea Google este asigurată de multe centre de informare din întreaga lume Acest lucru nu numai că face posibilă înlocuirea în cazul unei inundații sau unui cutremur La accesarea adresei www google com se analizează adresa IP a expeditorului solicitării, iar apoi browserul comunică doar cu centrul de informare cel mai apropiat de acesta Fiecare centru de date este conectat la Internet prin cel puțin o linie de fibră optică OS- ( Gbps), prin care se primesc solicitările și se trimit răspunsurile înapoi În plus, există o linie suplimentară OS- ( Mbps) pentru furnizorul de servicii de rezervă în cazul unei întreruperi în activitatea celui principal Pentru a se asigura că spectacolul poate continua chiar și în timpul întreruperilor de curent, toate centrele au surse de alimentare neîntreruptibile și generatoare diesel de urgență Astfel, în timpul dezastrelor naturale, activitatea Google nu va fi perturbată, deși performanța va scădea Pentru a înțelege mai bine de ce arhitectura Google a devenit așa cum este, este util să vedem cum este procesată o solicitare într-unul dintre centrele de informare Ajungând la hub (pasul din Figura ), cererea este redirecționată de echilibrator de încărcare către unul dintre numeroșii manipulatori de cereri ( ) și, în paralel, către verificatorul ortografic ( ) și serverul de publicitate contextuală ( ) În paralel, căutarea cuvântului solicitat este efectuată pe serverele de index ( ), care stochează înregistrările fiecărui cuvânt pe Web Orez Se procesează o solicitare către Google Capitolul Arhitecturi de calculatoare paralele Fiecare astfel de intrare listează toate documentele care conțin acel cuvânt (acestea pot fi pagini web, fișiere PDF, prezentări PowerPoint etc ) Legăturile din aceste liste sunt aranjate în funcție de rangul paginii, parametru care se calculează folosind o formulă complexă Principiul calculării ratingului este ținut secret, dar se știe că numărul de link-uri către pagină și ratingurile paginilor care leagă la aceasta sunt de mare importanță Pentru a îmbunătăți performanța, indexul este împărțit în bucăți care sunt căutate în paralel Conform acestei idei, fragmentul conține toate cuvintele din index, iar fiecare cuvânt este asociat cu identificatorii primelor n pagini cotate Fragmentul conține toate cuvintele și identificatorii următoarelor n pagini clasate și așa mai departe Pe măsură ce Web-ul crește, fiecare dintre aceste fragmente poate fi împărțit în mai multe părți, astfel încât prima parte va avea primele k cuvinte, a doua următorul k și m e Acest lucru vă permite să obțineți un paralelism și mai mare în căutare Serverele de index returnează seturi de ID-uri de document ( ) care sunt apoi combinate conform logicii de interogare De exemplu: +digita +kapibara +dans Cu o astfel de solicitare, doar identificatorii acelor documente care se află în toate cele trei seturi vor trece la pasul următor În acest pas, Google accesează el însuși documentele ( ), extragând din ele titluri, link-uri, precum și fragmente de text care înconjoară cuvintele solicitate Copii ale multor documente ale Rețelei sunt stocate pe serverele de documente ale tuturor centrelor de informare, în prezent volumul acestora ajungând la sute de terabytes Documentele sunt, de asemenea, împărțite în fragmente pentru a accelera căutarea paralelă Drept urmare, deși procesarea unei interogări nu necesită citirea întregului conținut al rețelei (și procesarea a zeci de terabytes de indici), atunci când deserviți o interogare obișnuită, trebuie totuși să "retorniți" cel puțin MB de date După ce rezultatele sunt returnate la manipulatorul de cereri ( ), acestea sunt combinate în funcție de rangul paginii Sunt adăugate informații despre posibilele erori de ortografie dacă sunt găsite ( ) și publicitate contextuală ( ) Includerea în rezultatele interogării a anumitor cuvinte cheie cumpărate de agenții de publicitate (de exemplu, "hotel" sau "cameră video") este ceea ce Google câștigă bani În cele din urmă, rezultatele sunt formatate în HTML (HyperText Markup Language) și livrate utilizatorului ca o pagină web normală Acum, pe baza cunoștințelor acumulate, putem studia arhitectura Google Majoritatea companiilor, confruntate cu nevoia de a menține o bază de date uriașă și foarte fiabilă, cu un număr mare de tranzacții, achiziționează cele mai rapide și mai fiabile echipamente disponibile pe piață Google a făcut exact invers Au cumpărat computere personale ieftine, cu performanțe medii O mulțime de computere Combinând aceste mașini, au construit cel mai mare grup de componente obișnuite din lume Principiul principal din spatele acestei soluții este simplu - optimizarea raportului preț/performanță Decizia a avut rădăcini în economie: computerele personale obișnuite sunt suficient de ieftine Pentru serverele high-end nu este cazul, ci pentru mari Multicalculatoare multiprocesoare - de două ori greșite De exemplu, performanța unui server puternic poate fi de - ori mai mare decât performanța unui computer mediu, dar de obicei costă de - ori mai scump decât de - ori Desigur, un computer personal ieftin este mult mai puțin fiabil decât cele mai bune modele de servere, dar serverele se blochează uneori Prin urmare, software-ul Google este scris pentru a rula fiabil pe hardware nesigur Având la dispoziție software-ul cu toleranță la erori, nu mai contează prea mult dacă rata de eșec este de , % sau % pe an Experiența Google arată că % din toate computerele se defectează într-un an Mai mult de jumătate dintre defecțiuni sunt cauzate de hard disk-uri, urmate de surse de alimentare, urmate de cipuri de memorie Procesoarele, după rulare, nu se rup deloc De fapt, principala cauză a defecțiunilor nu este hardware-ul, ci software-ul Prin urmare, prima reacție la o eroare este o repornire, care în majoritatea cazurilor rezolvă problema (acesta poate fi numit analogul electronic al rețetei "două aspirine noaptea") Un PC modern tipic folosit de Google are un procesor Pentium de GHz, MB de RAM și GB de stocare Poate că bunica ta își verifică ocazional e-mail-ul pe același aparat Doar cipul Ethernet merită o atenție specială Nu poate fi numită o operă de artă, dar este foarte ieftină Calculatoarele sunt adăpostite în carcase cu înălțimea II (aproximativ cm) și sunt instalate în rafturi verticale, câte de bucăți fiecare din față și din spate Într-un rack, astfel, sunt instalate de mașini, care sunt conectate la Ethernet folosind un comutator din interiorul rack-ului Toate rafturile dintr-un centru de date sunt, de asemenea, conectate la Ethernet printr-un comutator și există comutatoare redundante pentru supraviețuirea la failover Structura unui centru de informare Google tipic este prezentată în Fig Datele de la linia de fibră optică de mare viteză OS- sunt transmise la două switch-uri Ethernet cu de porturi Linia de rezervă OS- este conectată la ei în același mod O placă specială este utilizată pentru a conecta canalele de intrare, astfel încât acestea să nu ocupe porturile comutatoarelor Ethernet Există patru linii Ethernet care ies din fiecare rack, două către comutatorul afișat în stânga și două către dreapta Acest lucru permite sistemului să supraviețuiască defecțiunii oricăruia dintre cele două comutatoare Din cauza celor patru linii, pierderea comunicării cu rack-ul necesită fie ca toate cele patru linii să eșueze, fie două linii și comutatorul să eșueze Cu o pereche de switch-uri cu de porturi și rafturi cu patru linii, de rafturi pot fi conectate în rețea Dacă presupunem că există de computere într-un rack, acest lucru dă un total de de mașini, deși, desigur, nimeni nu cere ca într-un rack să fie exact de computere și chiar și comutatoarele pot avea mai mult de de porturi Doar că acestea sunt valori foarte tipice pentru clusterul Google Consumul specific de energie pe unitatea de suprafață este, de asemenea, de mare importanță Un computer personal tipic consumă aproximativ de wați, oferind kW per rack Este necesar un spațiu de minim m pentru ca personalul de întreținere să instaleze și să scoată computerele din rack Capitolul Arhitecturi de calculatoare paralele Astfel, consumul specific de energie este de W/m De obicei, centrele de date sunt proiectate pentru un consum de energie între și W/m , așa că sunt necesare măsuri speciale pentru răcire fibră optică Orez Cluster Google tipic Google a învățat trei reguli pentru construirea și rularea serverelor web mari, pe care este o idee bună să le reproduc aici Orice componente se rup, iar acest lucru trebuie luat în considerare Pentru a crește debitul și disponibilitatea, totul ar trebui duplicat Este necesara optimizarea raportului pret/performanta Primul punct spune că software-ul trebuie să fie tolerant la erori Chiar și cel mai bun echipament se va sparge mai devreme sau mai târziu dacă este suficient, iar această posibilitate trebuie luată în considerare programatic Un sistem de această dimensiune ar trebui să supraviețuiască eșecurilor, chiar dacă acestea apar de mai multe ori pe săptămână Multicalculatoare Al doilea punct indică faptul că atât software-ul, cât și hardware-ul trebuie să fie redundante Acest lucru nu numai că face ca sistemul să fie tolerant la erori, dar crește și debitul În cazul Google, computerele în sine, unitățile, cablurile, sursele de alimentare și comutatoarele lor sunt duplicate de multe ori În plus, fragmente de indici și documente sunt duplicate într-un singur centru Centrele de informare în sine sunt duplicate Al treilea punct este o consecință a primelor două Dacă sistemul răspunde corect la defecțiuni, este o prostie să cumpărați componente scumpe, cum ar fi matrice RAID sau unități SCSI Chiar și ei se sparg, iar cheltuirea de zece ori mai mult pentru a reduce la jumătate rata de eșec este o idee proastă Este mai bine să cumpărați de zece ori mai multe echipamente și să permiteți posibilitatea defecțiunilor La urma urmei, cu cât mai mult hardware, cu atât performanța este mai bună (când hardware-ul rulează) Pentru mai multe informații despre Google, consultați [ , ] Software de comunicații pentru multicalculatoare Programarea unui multicomputer necesită un software special (de obicei biblioteci) care permite interacțiunea între procese și sincronizare Rețineți că, în majoritatea cazurilor, pachetele software sunt destinate atât mașinilor MPP, cât și clusterelor, astfel încât aplicațiile sunt portabile între platforme În sistemele de mesagerie, două sau mai multe procese funcționează independent unul de celălalt De exemplu, unul dintre procese poate genera date, iar celălalt (sau altele) le consumă Dacă expeditorul are mai multe date, nu există nicio garanție că destinatarii sunt pregătiți să primească aceste date, deoarece fiecare proces rulează pe propriul program Majoritatea sistemelor de mesagerie folosesc cele două primitive send și geceive, dar alte semantice sunt posibile Cele trei opțiuni principale sunt: ♦ mesagerie sincronă; + trecerea mesajului tamponat; + transmiterea mesajului neblocant În mesageria sincronă, dacă expeditorul efectuează o operație de trimitere și receptorul nu a efectuat încă o operațiune de recepție, emițătorul se blochează (se suspendă) până când destinatarul efectuează o operație de recepție, moment în care mesajul este copiat Când controlul este returnat expeditorului, acesta știe deja că mesajul trimis a fost primit Această metodă are o semantică simplă și nu necesită tamponare Dar are un dezavantaj serios: expeditorul este blocat până când destinatarul acceptă mesajul și îl confirmă În cazul mesageriei în buffer, mesajul trimis este stocat temporar undeva (de exemplu, în cutia poștală) până când destinatarul este gata să-l ridice de acolo Cu această abordare, expeditorul poate continua să lucreze chiar și după finalizarea operațiunii de trimitere, chiar dacă destinatarul în acel moment Capitolul Arhitecturi de calculatoare paralele ocupat Deoarece mesajul a fost deja trimis, expeditorul poate utiliza imediat din nou tamponul de mesaje Această schemă reduce timpul de întârziere Cu toate acestea, nu există nicio garanție că va fi primit un mesaj Chiar și cu un sistem de comunicare fiabil, există întotdeauna șansa ca destinatarul să nu poată primi mesajul din cauza unei eșecuri În transmiterea de mesaje fără blocare, expeditorul poate continua imediat după efectuarea unui apel Singura sarcină a bibliotecii este să spună sistemului de operare să proceseze apelul atunci când are timp Drept urmare, expeditorul nu este blocat deloc Dezavantajul acestei metode este că atunci când expeditorul continuă după operația de trimitere, acesta nu poate utiliza din nou buffer-ul de mesaje, deoarece există posibilitatea ca mesajul să nu fi fost încă trimis Expeditorul trebuie să determine cumva că poate utiliza din nou tamponul De exemplu, puteți interoga sistemul O altă opțiune este de a efectua o întrerupere a sistemului atunci când tamponul este eliberat Cu toate acestea, ambele opțiuni necesită software sofisticat În continuare, ne vom uita la un sistem de mesagerie popular care este utilizat în multe computere multiple Interfață de mesagerie În urmă cu câțiva ani, pachetul PVM (Parallel Virtual Machine) era considerat cel mai popular pachet pentru schimbul de informații între multicomputer [ ] Cu toate acestea, acum a fost aproape universal înlocuit de pachetul MPI (Message-Passing Interface) Pachetul MPI este mult mai complex decât PVM; acceptă mult mai multe apeluri de bibliotecă și mult mai mulți parametri per apel Prima versiune a RMN, numită acum RMN- , a fost completată în de o a doua versiune, RMN- În continuare, vom vorbi pe scurt despre RMN- , iar apoi vom vedea ce este nou în RMN- Consultați Refs [ , ] pentru mai multe informații despre RMN Pachetul MPI- , spre deosebire de PVM, nu are nimic de-a face cu crearea și managementul procesului Procesele trebuie create de utilizator însuși prin apeluri de sistem locale Odată create, procesele sunt organizate în grupuri care nu se schimbă Cu aceste grupuri funcționează RMN RMN se bazează pe patru concepte: comunicatori, tipuri de date transmise, operații de comunicare și topologii virtuale Un comunicator este un grup de procese plus un context Un context este o etichetă care identifică ceva (de exemplu, o fază de execuție) În procesul de trimitere și primire a mesajelor, contextul poate fi folosit pentru a nu confunda mesajele care nu au legătură între ele Tipurile de date transmise în mesaje pot fi diferite, inclusiv caractere, numere întregi scurte, obișnuite și lungi, numere cu virgulă mobilă de precizie standard și dublă etc În plus, se pot construi noi tipuri de date din tipurile de date existente RMN-ul suportă multe operațiuni de comunicare Iată cum arată operația de trimitere a mesajelor: MPI Send( y ep, num elements, data type, destinatar, tag, comunicator) Multicalculatoare În acest apel, conținutul buffer-ului este transmis receptorului, care conține elemente de tip datatype în numărul de elemente-num Câmpul de etichetă este eticheta mesajului; destinatarul poate primi doar mesaje care au această etichetă Ultimul câmp (comunicatorul) arată cărui grup de procese aparține destinatarul (destinatarul este pur și simplu un index în lista de procese dintr-un anumit grup) Un apel similar pentru a primi un mesaj arată astfel: MPI Recv(& y ep, number of elements, data type, sender , te r, comunicator, ^status) Acest apel indică faptul că receptorul așteaptă un mesaj de la expeditorul de tip data type cu eticheta dată RMN-ul acceptă patru moduri de comunicare de bază Primul mod este sincron În ea, expeditorul nu poate începe să transmită date până când receptorul efectuează un apel MPI Recv Al doilea mod este tamponarea În acest mod, limitarea primului mod nu se aplică Al treilea mod este standard Este dependent de implementare, adică poate fi implementat fie modul sincron, fie modul tampon Al patrulea mod este pregătirea Aici, ca și în modul sincron, emițătorul cere ca receptorul să fie disponibil, dar fără verificare Fiecare dintre aceste primitive are versiuni blocante și neblocante pentru un total de primitive Obținerea poate fi doar în două moduri: blocare și neblocare RMN-ul sprijină diverse forme de interacțiune colectivă În orice formă de astfel de interacțiune, toate procesele din grup trebuie să efectueze apelul cu parametri compatibili În caz contrar, apare o eroare De exemplu, într-o formă tipică de interacțiune colectivă, procesele pot fi organizate într-o structură arborescentă, în care datele sunt transferate de la frunze la rădăcini, suferind o anumită prelucrare la fiecare pas (aceasta poate fi o adăugare de valori sau o căutare de maxim) Al patrulea concept de bază al MPI este topologia virtuală a proceselor (arborele, inelul, zăbrelele, torusul etc ) Această organizare a proceselor oferă posibilitatea denumirii căilor de comunicație și simplifică interacțiunea MPI- a adăugat suport pentru procese dinamice, acces la memorie de la distanță, comunicare colectivă fără blocare, I/O scalabil, procesare în timp real și multe altele Există un "război" în comunitatea științifică de ani de zile între susținătorii MPI și PVM Susținătorii RVM au susținut că sistemul a fost mai ușor de învățat și mai ușor de utilizat Fanii MPI au răspuns spunând că MPI acceptă mai multe funcții și, în plus, acest sistem este standardizat, ceea ce este confirmat de documentul oficial De acord cu aceasta, apărătorii RVM au obiectat că lipsa tuturor documentelor asociate procesului de standardizare birocratică nu este un motiv pentru a abandona sistemul Până la urmă, când totul a fost spus și făcut, victoria a revenit la RMN Planificare Nu este dificil pentru programatorii de sistem MPI să dezvolte sarcini în care solicitările sunt făcute către mai multe procesoare simultan și care sunt efectuate suficient Capitolul Arhitecturi de calculatoare paralele pentru o lungă perioadă de timp Când există mai multe solicitări de la mai mulți utilizatori, fiecare cerere utilizează un număr diferit de procesoare pentru o perioadă diferită de timp Prin urmare, clusterul are nevoie de un planificator care determină când să ruleze fiecare dintre joburi În cel mai simplu model, planificatorul de joburi trebuie doar să știe de câte procesoare trebuie să ruleze fiecare job În acest model, sarcinile sunt aliniate strict în ordinea FIFO (Fig , a) Când începe să se execute primul job, planificatorul verifică dacă există suficiente procesoare pentru a rula următoarea lucrare în ordine Dacă da, atunci începe să ruleze și așa mai departe Dacă nu, atunci sistemul așteaptă până când sunt eliberate suficiente procesoare În exemplul nostru, clusterul conține procesoare, dar ar putea conține în blocuri de bucăți (ar rezulta grupuri de procesoare) sau într-o altă combinație grup de procesoare grup de procesoare grup de procesoare a b Orez Executarea sarcinilor în cluster (procesoarele inactive sunt afișate cu gri): în ordinea FIFO (a); fără a bloca începutul cozii (b); prin completarea unui dreptunghi în procesoare - sistem de coordonate timp (în) Într-un algoritm de programare mai complex, blocarea în capul cozii este evitată În acest caz, toate sarcinile pentru care nu există suficiente procesoare sunt sărite, iar prima sarcină, pentru care există suficiente procesoare, este pusă la execuție Ori de câte ori se termină un job, coada de joburi rămase este verificată în ordinea FIFO (Figura b) Un algoritm și mai complex necesită să se cunoască dinainte de câte procesoare sunt necesare pentru a finaliza fiecare sarcină și cât timp va dura Având aceste informații, planificatorul de sarcini poate încerca să umple dreptunghiul din sistemul de coordonate procesor-timp cu joburi (Fig , c) Acest lucru este eficient în special atunci când sarcinile sunt primite în timpul zilei și trebuie finalizate noaptea În acest caz, planificatorul de sarcini primește toate informațiile necesare în avans și poate executa sarcini în ordinea optimă Multicalculatoare Memoria partajată la nivelul aplicației Exemplele noastre arată că multicalculatoarele se scalează mult mai bine decât multiprocesoarele Acest fapt a dus la apariția sistemelor de mesagerie precum MPI Mulți programatori nu le place acest model și ar prefera să aibă iluzia memoriei partajate chiar dacă nu există cu adevărat Dacă acest obiectiv ar putea fi atins, ar fi excelent din toate punctele de vedere: atât în ceea ce privește echipamentele mai ieftine (cel puțin la nivelul fiecărui nod), cât și în ceea ce privește comoditatea de programare S-ar putea spune că acesta ar fi Sfântul Graal al calculului paralel Mulți cercetători au ajuns la concluzia că memoria comună nu trebuie construită la nivel arhitectural - există și alte moduri Din fig Figura arată că există mai multe niveluri la care poate fi organizată memoria partajată În continuare, vom învăța cum să introducem memoria partajată în modelul software al unui multicomputer dacă nu este suportată de hardware Memoria partajată distribuită O clasă de sisteme cu memorie partajată la nivel de aplicație sunt sistemele cu memorie de paginare Această clasă de sisteme este cunoscută sub acronimul DSM (Distributed Shared Meshogu - distributed shared memory) Ideea este simplă: un număr de procesoare dintr-un multicomputer împart un spațiu comun de adrese virtuale de paginare Cea mai simplă opțiune este ca fiecare pagină să fie stocată în memoria RAM a unui singur procesor Pe fig și vedem spațiul total de adrese virtuale, care constă din pagini distribuite între patru procesoare Când procesorul accesează o pagină din memoria RAM locală, citirile și scrierile au loc fără întârziere Dacă procesorul accesează o pagină dintr-o altă memorie RAM, apare o eroare de pagină Cu toate acestea, în loc să caute pagina lipsă pe disc, sistemul de operare trimite un mesaj către nodul în care se află pagina pentru a o prelua din spațiul local de adrese și a o trimite la destinație Când pagina este primită, aceasta este mapată înapoi în memorie, iar comanda suspendată este re-execută, la fel ca o eroare normală de ieşire a paginii În Figura b, vedem situația după ce procesorul a primit o eroare lipsă de la pagina , după care a fost transferat de la procesorul la procesorul Ideea a fost implementată pentru prima dată în mașina Ivy [ ] În el, multicomputerul are o memorie partajată complet funcțională, secvențial consistentă Sunt disponibile diverse opțiuni de optimizare pentru a îmbunătăți performanța Prima optimizare în IVY a fost aceea că paginile de numai citire ar putea fi prezente pe mai multe noduri în același timp În cazul unei erori de pagină lipsă, o copie a paginii este trimisă către mașina solicitantă, dar originalul rămâne pe loc, deoarece nu există pericol de conflicte Pe fig c arată o situație în care două procesoare împărtășesc o pagină comună numai pentru citire, pagina Dar chiar și cu această optimizare este dificil să se obțină o performanță ridicată, mai ales când un proces scrie câteva cuvinte în partea de sus a unei pagini, iar un alt proces pe alt procesor scrie în același timp Capitolul Arhitecturi de calculatoare paralele pune câteva cuvinte în partea de jos a aceleiași pagini Deoarece o singură copie a acestei pagini este permisă să existe, pagina trebuie să fie transferată în mod constant înainte și înapoi Această situație se numește separare imaginară Procesor Procesor Procesor Procesor V Orez Spațiu de adrese virtuale de pagini distribuite între patru noduri multicomputer: stare inițială (a); starea după ce procesorul a accesat pagina (b); stare după ce procesorul a accesat pagina numai în citire (c) Problema separării imaginare poate fi rezolvată în diferite moduri De exemplu, se poate abandona consistența secvențială în favoarea consistenței libere [ ] În cazul consistenței libere, paginile care pot fi scrise pot fi prezente pe mai multe noduri în același timp, dar înainte de a scrie, procesul trebuie să efectueze o operațiune de achiziție pentru a raporta Multicalculatoare despre intentia ta În acest moment, toate, cu excepția ultimei copii, sunt invalidate și nu pot fi făcute copii până la finalizarea operațiunii de eliberare După efectuarea operației de eliberare, pagina devine publică din nou A doua opțiune de optimizare presupune că inițial toate paginile sunt mapate la memorie în modul doar citire Prima dată când este scrisă o pagină, sistemul creează o copie a paginii, numită geamăn Pagina originală este apoi mapată în memorie într-un format de citire/scriere, după care scrierile ulterioare pot fi făcute fără întârziere Dacă apare o eroare de pagină pe gazda la distanță, ceea ce înseamnă că o pagină modificată trebuie trimisă acolo, se efectuează mai întâi o comparație cuvânt cu cuvânt a paginii curente cu omologul său După aceea, doar acele cuvinte care au fost modificate sunt transmise gazdei la distanță, și nu întreaga pagină, ceea ce reduce dimensiunea mesajelor După ce apare o eroare de pagină lipsă, trebuie să determinați unde să o căutați Aici sunt posibile diferite abordări, inclusiv utilizarea directoarelor, ca în mașinile NUMA și COMA Multe dintre soluțiile utilizate în DSM sunt potrivite și pentru mașinile NUMA și COMA, deoarece DSM este o implementare software a unor astfel de mașini, în care fiecare pagină este tratată ca o linie de cache DSM continuă să fie o arenă activă de cercetare De mare interes sunt sistemele CASHMERE [ , ], CRL [ ], Shasta [ ] și Treadmarks [ , ] Linda Sistemele DSM paginate (cum ar fi IVY și Treadmarks) folosesc un manager de memorie pentru a intercepta accesul la paginile lipsă din hardware În timp ce pregătirea și redirecționarea numai a cuvintelor distinse în loc de întreaga pagină are un avantaj de performanță, paginile rămân dificil de partajat, așa că sunt utilizate alte abordări Una dintre aceste abordări este implementată în sistemul Linde, în care procesele de pe diferite mașini au la dispoziție o memorie partajată distribuită înalt structurată [ ] Această memorie este accesată folosind un set minim de primitive care pot fi incluse în limbile existente (de exemplu, în C sau FORTRAN), ca urmare, se formează așa-numitele limbi paralele - în acest caz, acestea sunt C -Linda și FORTRAN-Linda Sistemul Linda se bazează pe conceptul unui spațiu tuplu abstract, care este global în raport cu întregul sistem și este disponibil pentru toate procesele din acest sistem Spațiul tuplu este similar cu memoria partajată globală, doar cu o structură internă specifică Fiecare dintre tuplurile din spațiul de tuplu este format din unul sau mai multe câmpuri În C-Linda, câmpurile pot conține numere întregi, întregi lungi și flotanți, precum și tipuri de date complexe, cum ar fi matrice (inclusiv șiruri de caractere) și structuri c (dar nu și alte tupluri) Lista Sunt date exemple de tupluri Capitolul Arhitecturi de calculatoare paralele Lista Tupli în Linda ("abc" , ) ("matricea- ", , , ) ("fanrily" "is si ster", Carolyn, EH nor) Puteți efectua operații pe tupluri Primul, afară, introduce un tuplu în spațiul tuplurilor De exemplu: outCabc" ); Această operație introduce un tuplu ("abc", , ) în spațiul tuplu Câmpurile unei operațiuni out conțin de obicei constante, variabile sau expresii, cum ar fi: oiitCmatrix-l", , j, , ); Această operație introduce un tuplu cu patru câmpuri în spațiul tuplu, al doilea și al treilea câmp fiind determinate de valorile curente ale variabilelor i și j A doua operație, ip, extrage un tuplu din spațiul tuplurilor Tuplurile sunt referite după conținut, nu după nume sau adresă Câmpurile operației ip pot conține expresii sau parametri formali De exemplu: InC'abc", , ? ); Această operație scanează spațiul tuplurilor căutând un tuplu format din șirul de caractere "abc", întregul și un al treilea câmp care poate conține orice număr întreg (presupunând că i este un număr întreg) Tuplul găsit este extras din spațiul tuplu, iar variabilei i i se atribuie valoarea celui de-al treilea câmp Potrivirea și extracția sunt operații atomice Deci, atunci când două procese efectuează aceeași operație ip în același timp și nu mai există tupluri care se potrivesc în spațiul de tuplu, doar una dintre operații reușește Un spațiu de tuplu poate conține mai multe copii ale unui singur tuplu Algoritmul de potrivire utilizat în operațiunea ip este destul de simplu Câmpurile operației ip, numite șablon, sunt comparate cu câmpurile corespunzătoare fiecărui tuplu din spațiul tuplu O potrivire are loc dacă sunt îndeplinite următoarele trei condiții: șablon și tuplu au același număr de câmpuri; tipuri de câmpuri corespunzătoare sunt aceleași; fiecare constantă sau variabilă din șablon se potrivește cu câmpul corespunzător din tuplu Parametrii formali indicați printr-un semn de întrebare urmat de un nume de variabilă sau de tip nu participă la căutarea unei potriviri (cu excepția verificării tipului), deși acelor parametri care conțin un nume de variabilă li se atribuie valori după ce este găsită o potrivire Dacă nu se găsește niciun tuplu care se potrivește, procesul este suspendat până când un alt proces a introdus tuplu-ul dorit în spațiul tuplu În acest moment, procesul de apelare se reia automat și detectează un nou tuplu Procesele sunt blocate și eliberate automat, conform Multicalculatoare prin urmare, dacă un proces este gata să scoată un tuplu și altul să introducă, nu contează care proces vine primul A treia operație, citită, este similară cu ip, cu excepția faptului că nu elimină tuplu din spațiul tuplu A patra operație, еѵаі, construiește un nou tuplu pe baza parametrilor săi, care este copiat în spațiul tuplu Acest mecanism poate fi folosit pentru a efectua orice calcule Acesta este modul în care procesele paralele sunt create în sistemul Linda Principala paradigmă de programare a Lindei este modelul de lucrător replicat Modelul se bazează pe conceptul unui sac de sarcini care trebuie completat Procesul principal începe cu execuția unei bucle care conține operația out("sacul de sarcini", job); La fiecare iterație a buclei, una dintre sarcini este introdusă în spațiul tuplurilor Fiecare flux de lucru începe prin primirea unui tuplu care descrie jobul: in("sacul de sarcini", ?job); Procesul efectuează apoi această sarcină La finalizarea sarcinii, el primește următoarele În plus, un nou job poate fi inclus în pachetul de joburi în timpul execuției Astfel, munca este distribuită dinamic între procesele de lucru, iar fiecare proces de lucru este ocupat în mod constant Există diverse implementări ale Linda în sisteme multicomputer În toate implementările, întrebarea cheie este cum să distribuiți tuplurile pe mașini și cum să le găsiți dacă este necesar Opțiunile sunt difuzare și directoare Replicarea este, de asemenea, o problemă importantă Consultați [ ] pentru mai multe detalii Ogsa O abordare ușor diferită a implementării memoriei partajate într-un multicomputer la nivel de aplicație este utilizarea nu tuplelor pentru partajarea obiectelor cu drepturi depline După cum știți, obiectele constau dintr-o stare internă (ascunsă) și metode pentru operații cu această stare Deoarece programatorul nu are acces direct la stare, este posibil să partajeze resurse între mașini care nu partajează memoria fizică Unul dintre sistemele în care este implementată această abordare se numește Orca [ , , ] Orca este un limbaj de programare tradițional (bazat pe limbajul Modula ) care are două caracteristici noi - suport pentru obiecte și capacitatea de a crea noi procese Un obiect din Orca este un tip de date abstract, similar cu un obiect din Java sau cu un pachet din Ada Un obiect încapsulează structuri de date interne și metode de utilizator, care sunt numite operații Obiectele sunt pasive, adică nu conțin fire de execuție de program către care să poată fi trimise mesaje Procesele accesează datele interne ale unui obiect apelând metodele acestuia Fiecare metodă din Orca constă dintr-o listă de perechi de instrucțiuni bloc de siguranță Un fuzibil este o expresie booleană care poate lua Capitolul Arhitecturi de calculatoare paralele valoarea este adevărată (adevărată) sau falsă (falsă) Când este apelată o operațiune, toți paznicii ei sunt evaluați în nicio ordine anume Dacă toate sunt false, procesul de apelare este suspendat până când unul dintre ele este adevărat Când se găsește o astfel de siguranță, se execută blocul de instrucțiuni care urmează Lista arată un obiect de stivă cu două operații, push și pop Lista Obiect de stivă simplificat cu date interne și două operații stiva de implementare a obiectelor; sus:întreg; # stocare stivă stivă:matrice[întreg ,nl]de întreg; operațiune pushdtem: întreg); # o funcție care nu returnează nimic începe stackLtop] := element; sus := sus + ; Sfârşit; # împinge elementul pe stivă # incrementează indicatorul stivei operațiune pop(): întreg; start guard top> do top := top - ; return stackLtop]; od; Sfârşit; # o funcție care returnează un număr întreg # se întrerupe dacă stiva este goală # reduce indicatorul stivei # returnează partea de sus a stivei ÎNCEPE sus:= ; # inițializare Sfârşit; După definirea obiectului stivă, puteți declara variabile de acest tip: s, t, stivă; Această notație creează două obiecte stive și setează variabila vârf în fiecare obiect la Variabila întreagă k poate fi împinsă în stiva s folosind instrucțiunea s$push(k); Operația pop conține o gardă, așa că încercarea de a scoate o variabilă dintr-o stivă goală va determina suspendarea procesului de apel până când un alt proces împinge ceva în stivă Orca are un operator pentru generarea unui nou proces, operatorul furk Noul proces începe procedura specificată în instrucțiunea fork Alți parametri pot fi transferați noului proces, inclusiv un obiect Acesta este modul în care obiectele sunt distribuite mașinilor De exemplu: for i in l n do fork foobar(s) on i; od; Această declarație generează un nou proces pe toate mașinile de la la n, rulând programul foobar pe fiecare Deoarece aceste n procese noi (precum și procesul inițial) rulează în paralel, toate pot împinge elemente în stiva comună și pot pop elemente din stiva comună ca și cum toate ar rula pe un multiprocesor cu memorie partajată Multicalculatoare Operațiile pe obiecte partajate sunt atomice și consecvențial Adică, sistemul garantează că, dacă mai multe procese efectuează operațiuni cu un singur obiect aproape simultan, sistemul însuși stabilește o anumită secvență de evenimente pe care toate procesele le percep În Orca, datele partajate și sincronizarea sunt implementate diferit decât în sistemele de paginare Sunt necesare două tipuri de sincronizare în programele paralele Prima este excluderea reciprocă Excluderea reciprocă împiedică două procese să execute aceeași secțiune critică de cod în același timp În Orca, fiecare operație pe un obiect partajat este ca și cum ar fi executarea unei secțiuni critice, deoarece sistemul garantează că rezultatul final va fi același ca și cum toate secțiunile critice ale codului ar fi executate pe rând În acest sens, un obiect din Ogsa este similar cu un monitor distribuit [ ] Al doilea tip de sincronizare este sincronizarea condiționată, în care un proces se blochează în așteptarea îndeplinirii unei anumite condiții În Ogsa, sincronizarea condiționată se realizează folosind siguranțe În exemplul din Listarea , un proces care încearcă să scoată un element dintr-o stivă goală blochează până când există elemente pe stivă Orca acceptă replicarea obiectelor, migrarea și consistența obiectelor, precum și invocarea operațiunilor asupra acestora Fiecare obiect poate fi într-una din două stări: poate fi unic sau replicat În primul caz, obiectul există doar pe o singură mașină, așa că toate cererile sunt trimise acolo Obiectul replicat este prezent pe toate mașinile care rulează un proces care utilizează obiectul Acest lucru simplifică operația de citire (pentru că se poate face local), dar complică actualizarea Când se efectuează o operație care modifică un obiect replicat, numărul secvenței procesului trebuie mai întâi obținut de la procesul central Apoi, fiecărei mașini este trimis un mesaj care conține o copie a obiectului pentru a efectua operația specificată Deoarece toate aceste actualizări sunt numerotate în ordine, fiecare mașină efectuează pur și simplu operațiunile în ordinea specificată, ceea ce garantează consistența secvențială Glob Cele mai multe sisteme de memorie partajată distribuite, cum ar fi Linda și Ogsa, funcționează în aceeași clădire sau campus Cu toate acestea, este, de asemenea, posibil să se construiască un multicomputer global (la nivel mondial) cu memorie partajată la nivel de aplicație De exemplu, în sistemul Globe, un obiect poate locui simultan în spațiul de adresă al multor procese, eventual rulând pe continente diferite [ , , ] Pentru a accesa datele unui obiect partajat, procesele utilizatorului trebuie să acționeze prin metodele sale, astfel încât diferite implementări sunt acceptabile pentru diferite obiecte De exemplu, este posibil să aveți o copie a datelor care este solicitată după cum este necesar (acest lucru este util pentru datele actualizate frecvent cu un singur proprietar) O altă opțiune este să stocați toate datele în fiecare copie a obiectului și să trimiteți mesaje de actualizare la fiecare copie printr-un protocol multicast securizat Capitolul Arhitecturi de calculatoare paralele Scopul ambițios al sistemului Globe este să ajungă la scara unui miliard de utilizatori și a unui trilion de obiecte (poate mobile) Sarcinile cheie sunt plasarea obiectelor, gestionarea acestora, precum și extinderea sistemului Globe rezolvă aceste probleme menținând doar o structură comună în care fiecare obiect poate avea propriile strategii de replicare, protecție etc Acest lucru evită multe dintre problemele altor sisteme, lăsând doar mecanismul utilizării memoriei partajate pentru programare Alte sisteme distribuite la scară largă includ Globus [ , ] și Legion [ , ], dar acestea, spre deosebire de Globe, nu suportă iluzia memoriei partajate Performanţă Scopul unui computer paralel este de a-l face mai rapid decât o mașină cu un singur procesor Dacă acest obiectiv nu este atins, nu are rost să dezvoltam un computer paralel În plus, acest obiectiv ar trebui atins la un cost minim O mașină care rulează de două ori mai repede decât un singur procesor, dar costă de de ori mai mult decât acesta din urmă este puțin probabil să fie la cerere În această subsecțiune, luăm în considerare câteva aspecte ale performanței arhitecturilor de computere paralele Valori hardware Din punct de vedere hardware, viteza procesoarelor, a dispozitivelor I/O și a rețelei de comunicații este de cel mai mare interes Deoarece viteza procesoarelor și a dispozitivelor de intrare-ieșire este aceeași ca la o mașină cu un singur procesor, parametrii rețelei de comunicații sunt cheie într-un sistem paralel Există două valori cheie aici: latența și debitul Le vom lua în considerare pe rând Latența totală, sau timpul de răspuns, este timpul necesar procesorului pentru a trimite un pachet și a primi un răspuns Dacă pachetul este trimis în memorie, atunci latența este timpul necesar pentru a citi și scrie un cuvânt sau un bloc de cuvinte Dacă un pachet este trimis către un alt procesor, atunci latența este timpul necesar pentru a transfera pachete de o anumită dimensiune între procesoare De obicei, latența pentru pachetele de cea mai mică dimensiune (de obicei un cuvânt sau o linie de cache mică) este de interes Cantitatea de latență este determinată de mai mulți factori, iar această dată este diferită pentru tehnologiile de comutare de circuite, comutare cu stocare și redirecționare, rutare virtuală end-to-end În cazul comutării circuitului, latența este suma timpului de configurare a conexiunii și a timpului de transmisie Pentru a stabili o conexiune, este trimis un pachet de probă care vă permite să rezervați resursele necesare, este returnat un mesaj cu un raport După aceea, puteți asambla pachetul de date Când un pachet este gata, biții pot fi transmiși la viteza maximă, deci dacă timpul total de configurare a conexiunii este Ts, dimensiunea pachetului este de p biți și debitul este de b biți/s, latența unidirecțională este Ts + p /b Multicalculatoare Dacă schema este full duplex și nu este necesară nicio conexiune pentru un răspuns, latența minimă pentru transmiterea unui pachet p-bit și primirea unui răspuns p-bit este Ts + p/b secunde Când schimbați pachetele, nu este necesar să trimiteți un pachet de probă destinatarului în avans, dar este nevoie de ceva timp pentru a asambla pachetul Aici, timpul de transmisie unidirecțională este Ta + p/b, dar în această perioadă pachetul ajunge doar la primul comutator Trecerea prin comutator în sine are ca rezultat o oarecare întârziere, Td, apoi trece la următorul comutator și așa mai departe Timpul Td constă în timpul de procesare și întârzierea în coadă (când trebuie să așteptați până când portul de ieșire devine liber) Dacă există n comutatoare, atunci timpul total de întârziere într-un singur sens este Ta + n(p/b + Td) + p/b, unde ultimul termen reflectă faptul că pachetul a fost transmis de la ultimul comutator la destinatar Latența unidirecțională pentru rutarea virtuală end-to-end se apropie în cel mai bun caz de Ta + p/b, deoarece nu există pachete de sondă pentru a stabili o conexiune și nicio întârziere de stocare și redirecționare În esență, acesta este timpul de asamblare a pachetului plus timpul de transmisie a biților Ar fi necesar să adăugați întârzierea de propagare a semnalului, dar în toate cazurile este mică Următoarea măsurătoare hardware este debitul Multe programe paralele, în special în științele naturii, sunt orientate spre mutarea unor cantități uriașe de date, astfel încât numărul de octeți pe care un sistem poate transfera pe secundă este o măsură foarte importantă a performanței Există mai multe valori de debit Am luat în considerare deja unul dintre ele - debitul secțiunii (a se vedea subsecțiunea "Rețele de comunicații" din secțiunea "Multicomputere") O altă măsurătoare, debitul agregat, este calculată prin însumarea debitului tuturor legăturilor Acest număr indică numărul maxim de biți care pot fi transmiși la un moment dat O altă măsură importantă este debitul mediu al fiecărui procesor Dacă fiecare procesor poate produce date doar la o viteză de MB/s, atunci o rețea cu o lățime de bandă transversală de GB/s este de puțin folos Viteza de interacțiune în acest caz este limitată de capacitățile de viteză ale fiecărui procesor În practică, este foarte dificil să se abordeze debitul posibil teoretic Motivele pentru aceasta pot fi foarte diferite De exemplu, fiecare pachet conține întotdeauna date de service legate de asamblare, crearea antetului, trimitere Când trimitem de pachete de octeți fiecare, nu vom atinge niciodată același debit ca atunci când trimitem un pachet de de octeți Cu toate acestea, pentru a reduce latența, este mai bine să folosiți pachete mici, deoarece pachetele mari blochează liniile și comută mult timp Ca rezultat, există un conflict între modul de a obține o latență scăzută și un randament ridicat Pentru unele aplicații, latența este mai importantă, pentru altele, debitul este mai important Dar, în orice caz, este important să înțelegem că debitul poate fi întotdeauna crescut în detrimentul costurilor suplimentare cu materiale (prin adăugarea Capitolul Arhitecturi de calculatoare paralele mai multe fire sau prin instalarea de fire mai late), dar în ceea ce privește reducerea timpului de întârziere, injecțiile financiare nu vor ajuta aici Prin urmare, de obicei, este mai bine să aveți grijă de latența minimă de la bun început și abia apoi să vă gândiți la debit Valorile programului Valorile hardware, cum ar fi latența și debitul, arată de ce este capabil hardware-ul Dar utilizatorii sunt interesați de ceva complet diferit Vor să știe cu cât de repede vor rula programele lor pe un computer paralel în comparație cu un singur procesor Pentru ei, metrica cheie este accelerarea: cu cât de repede rulează un program pe un sistem cu n procesoare în comparație cu un sistem cu un singur procesor Rezultatele sunt de obicei ilustrate grafic (Fig ) Problemă de modelare N-corpuri Avari Inversarea matricei de profil Orez În practică, programele nu pot atinge accelerarea ideală (indicată prin linie punctată) Aici vedem mai multe programe paralele diferite care rulează pe un multicomputer format din de procesoare Pentium Pro Fiecare curbă arată accelerarea unui program cu k procesoare în funcție de k Linia punctată reprezintă accelerarea ideală în care utilizarea k procesoare face ca programul să ruleze de k ori mai rapid pentru orice k Puține programe ating viteza ideală, deși există destul de multe programe care se apropie de ideal Problema modelării N corpuri datorită paralelismului se rezolvă mult mai repede, Avari Multicalculatoare (jocul african) se calculează, de asemenea, mai rapid, dar este imposibil să grăbim inversarea unei anumite matrice de profil de mai mult de cinci ori, indiferent de câte procesoare folosim Programele și rezultatele sunt discutate în [ ] Există o serie de motive pentru care este aproape imposibil să se obțină o accelerare perfectă: în aproape toate programele există fragmente care sunt executate în mod fundamental secvențial, de exemplu, inițializarea, citirea datelor inițiale sau obținerea de rezultate Creșterea numărului de procesoare nu va ajuta aici Să presupunem că un program rulează pe un computer cu un singur procesor timp de T secunde, cu o fracțiune (/) din acel timp rulând secvențial și o fracțiune ( -/) executând potențial în paralel, așa cum se arată în Fig a Dacă codul paralel poate fi rulat pe n procesoare, atunci timpul de execuție al acestui cod se va reduce cel mai bine de la ( - f)T la ( - f)T/n, așa cum se arată în Fig b Ca urmare, timpul total de execuție a programului (atât codul serial, cât și codul paralel) va fi fT + ( - f)T/n Accelerația este timpul de execuție al programului original (T) împărțit la acest nou timp: Accelerație = - + - )/ Pentru / = putem obține o accelerare liniară, dar pentru / > accelerația ideală nu este realizabilă deoarece programul are o parte în serie Acest fenomen se numește Legea lui Amdahl O piesă care poate fi în principiu serializată O piesă poate fi executată în paralel n de lucru b T Orez Pe lângă partea de serie, programul conține și partea care poate fi executată în paralel (a); rezultat al prelucrării paralele a unei părți a programului (b) Legea lui Amdahl este doar unul dintre motivele pentru care accelerația perfectă este de neatins Un anumit rol în acest sens îl joacă timpul de întârziere în liniile de comunicație și lățimea de bandă limitată și deficiențele algoritmilor Chiar dacă am avea de procesoare, nu toate programele ar putea fi scrise pentru a le folosi pe toate, iar suprasarcina de a rula atât de multe procesoare ar putea fi destul de semnificativă Mai mult, mulți algoritmi cunoscuți aproape că nu sunt susceptibili de procesare paralelă, așa că trebuie înlocuiți cu algoritmi cvasi-optimi În același timp, pentru mulți fund Capitolul Arhitecturi de calculatoare paralele Pentru multe sarcini, ar fi foarte de dorit ca programul să ruleze de n ori mai rapid, chiar dacă necesită n procesoare La urma urmei, procesoarele nu sunt chiar atât de scumpe Tehnici de performanță Cea mai evidentă modalitate de a îmbunătăți performanța sistemului este să adăugați procesoare Cu toate acestea, trebuie să adăugați procesoare astfel încât blocajele să nu apară în sistem Sistemul, după adăugarea procesoarelor la care există o creștere corespunzătoare a performanței, se numește scalabil Luați în considerare procesoare conectate printr-o magistrală comună (Fig , a) Imaginați-vă că am extins sistemul la procesoare adăugând încă (Figura b) Dacă lățimea de bandă a magistralei este de b MB/s, atunci prin multiplicarea de patru ori a numărului de procesoare, vom reduce lățimea de bandă disponibilă fiecărui procesor de la / la / MB/s Un astfel de sistem nu poate fi numit scalabil CPU □ E R ? ? ■yjj yjschsh r E r [ ]-C ] E -C ] E ] □ s-T L ШІІШ J b d JLJ Е j □ a B C D Orez Un sistem de procesoare conectate printr-o magistrală comună (a); un sistem de procesoare conectate printr-o magistrală comună (b); grila de comunicatii de procesoare (a); matrice de comunicații de procesoare (d) Și acum să facem același lucru cu grila de comunicații (Fig , c și d) Într-o astfel de topologie, adăugarea de noi procesoare înseamnă adăugarea de noi legături de comunicație, astfel încât atunci când sistemul se scalează, debitul total al fiecărui procesor nu scade, așa cum este cazul magistralei De fapt, raportul link-to-procesor crește de la cu procesoare ( link-uri) la cu procesoare ( link-uri), astfel încât pe măsură ce se adaugă mai multe procesoare, debitul total al fiecărui procesor crește Desigur, debitul nu este singurul parametru Adăugarea procesoarelor la magistrală nu crește diametrul rețelei sau latența, în timp ce adăugarea procesoarelor la rețea o face Diametrul unei rețele n x n este (n - ), deci în cel mai rău caz, latența crește aproximativ ca rădăcină pătrată a numărului de procesoare Pentru de procesoare, diametrul este de , pentru de procesoare este de , deci dacă multiplicați de patru ori numărul de procesoare, atunci diametrul și, în consecință, latența medie, se va dubla aproximativ În mod ideal, un sistem scalabil ar trebui să păstreze același debit mediu per procesor și o latență medie constantă atunci când adaugă procesoare noi În practică, conservarea Multicalculatoare este fezabil un debit suficient al fiecărui procesor, dar latența crește odată cu creșterea numărului de procesoare Cel mai bine ar fi să-l faci să crească logaritmic, ca într-un hipercub Ideea este că latența este adesea fatală pentru performanța aplicațiilor mici și mijlocii Dacă un program are nevoie de date care nu se află în memoria locală, este nevoie de o perioadă semnificativă de timp pentru a-l obține și, cu cât sistemul este mai mare, cu atât este mai mare întârzierea Această problemă este comună atât pentru multiprocesoare, cât și pentru multicalculatoare, deoarece ambele arhitecturi împart memoria fizică în module fixe, distribuite Există mai multe tehnici folosite de dezvoltatorii de sisteme pentru a reduce sau cel puțin a masca latența Prima tehnologie este replicarea Dacă replicile unui bloc de date pot fi stocate în mai multe locații, atunci viteza de acces la aceste date poate fi îmbunătățită O posibilă opțiune este utilizarea unui cache, în care una sau mai multe copii ale blocurilor de date sunt stocate lângă un loc unde ar putea fi necesare și căruia îi "aparțin" O altă opțiune este de a stoca mai multe copii peer-to-peer (spre deosebire de relația inegală master-slave a memoriei principale și a memoriei cache) Când sunt păstrate mai multe copii, întrebările principale sunt de către cine, când și unde sunt plasate Aici, sunt posibile o varietate de opțiuni, de la alocarea dinamică bazată pe hardware a datelor la cerere până la plasarea lor forțată în timpul încărcării folosind directivele compilatorului corespunzătoare În orice caz, sarcina controlului coordonat vine în prim plan A doua tehnică este mascarea latenței prin ceea ce este cunoscut sub numele de preîncărcare, în care un articol este apelat înainte de a fi necesar Acest lucru permite ca procesul de apelare și procesul de execuție să se suprapună, deoarece programul primește fără întârziere elementul solicitat Preluarea poate fi implementată atât în hardware cât și în software În cazul preluării, nu numai cuvântul dorit este încărcat în cache, ci întreaga linie cache care îl conține, în așteptarea că alte cuvinte din această linie vor fi utile în viitor Preîncărcarea poate fi, de asemenea, controlată direct Când compilatorul află că programul va avea nevoie de anumite date în timpul execuției, introduce o comandă pentru a le introduce în cod și în așa fel încât să obțină datele necesare la timp O astfel de strategie presupune ca compilatorul să aibă cunoștințe complete despre mașină și mecanismul său de sincronizare și să controleze unde sunt stocate toate datele Comenzile speculative LOAD funcționează cel mai bine atunci când este absolut sigur că datele încărcate vor fi utilizate O eroare de ieșire a paginii la executarea unei comenzi LOAD pe o ramură care nu va fi niciodată necesară este extrem de costisitoare A treia tehnică de mascare a latenței este utilizarea mai multor fire de execuție a programului Dacă comutarea între procese poate fi suficient de rapidă (de exemplu, oferindu-le fiecăruia propria hartă de memorie și propriile registre), atunci când un fir blochează așteptarea datelor, hardware-ul poate comuta rapid la un alt fir gata de executare În cazul limitativ, procesorul execută Capitolul Arhitecturi de calculatoare paralele prima instrucțiune din firul , a doua instrucțiune din threadul și așa mai departe Astfel, procesorul este mereu ocupat, chiar și cu întârzieri mari pe fire individuale A patra tehnică de mascare a latenței este utilizarea scrierilor neblocante De obicei, la executarea unei instrucțiuni STORE, procesorul așteaptă finalizarea acesteia și abia apoi continuă să funcționeze Dacă există intrări neblocante, programul continuă să ruleze chiar și atunci când o operație de memorie este în curs Este mai dificil să continui programul în timp ce se execută comanda LOAD, dar chiar și acest lucru este posibil datorită execuției cu o schimbare a secvenței Calcul distribuit Multe dintre sarcinile de astăzi în știință, tehnologie, producție, protecția mediului și alte domenii sunt la scară foarte mare și cu multiple fațete Pentru a le rezolva, este necesar să combinați cunoștințele, abilitățile, instrumentele, capacitățile, programele și datele multor organizații, adesea împrăștiate în întreaga lume Iată doar câteva exemple: ♦ oameni de știință care studiază toate aspectele unei misiuni pe Marte; ♦ un consorțiu care dezvoltă un produs complex (ex o aeronavă sau un baraj); ♦ o echipă internațională de salvare care își coordonează acțiunile în timpul unui dezastru natural Unele sarcini necesită mai multă cooperare pe termen lung, altele mai puțin, dar toate au un detaliu comun Diferite organizații lucrează împreună pentru a atinge un obiectiv comun, fiecare folosind propriile sale resurse și propriile sale proceduri de operare Până nu demult era foarte dificil să se asigure colaborarea diferitelor organizații care folosesc sisteme de operare diferite, baze de date și protocoale diferite Cu toate acestea, nevoia tot mai mare de colaborare la scară largă între organizații a condus la dezvoltarea de sisteme și tehnologii pentru combinarea calculatoarelor disparate în ceea ce se numește grid computing Într-un anumit sens, calculul distribuit este următorul pas de-a lungul axei din Fig Un sistem de calcul distribuit poate fi privit ca un cluster eterogen foarte mare, internațional, slab cuplat Scopul sistemului de calcul distribuit este de a crea o infrastructură tehnică care să permită mai multor organizații care urmăresc un obiectiv comun să creeze o singură organizație virtuală Această organizație virtuală ar trebui să fie o structură flexibilă cu un număr de membri în schimbare dinamică, în care membrii individuali să poată lucra împreună în zonele necesare și, în același timp, să își controleze pe deplin propriile resurse Serviciile, instrumentele și protocoalele sunt dezvoltate de cercetători în acest scop și acesta este ceea ce permite membrilor individuali să funcționeze într-o organizație virtuală Un sistem de calcul distribuit este în mod inerent multidimensional, cu un număr mare de egali Se poate opune Calcul distribuit modele de calcul tradiționale În modelul client-server, doi participanți sunt implicați într-o tranzacție - un server care oferă un anumit serviciu și un client care dorește să-l primească Un exemplu tipic este World Wide Web, unde mulți utilizatori accesează servere pentru informații Sistemele de calcul distribuite diferă, de asemenea, de aplicațiile punct la punct care combină perechi de mașini pentru a schimba fișiere între ele Un exemplu tipic de aplicație punct la punct este e-mailul Ca o consecință a acestor diferențe, sunt necesare noi protocoale și noi tehnologii Într-un sistem de calcul distribuit, este necesar să se ofere acces la o varietate de resurse Fiecare resursă are propriul său sistem și o organizație care o deține, care decide cât de mult din resursă este disponibilă, la ce oră și cui Fără a intra în detalii, putem spune că esența unui sistem de calcul distribuit este în gestionarea accesului la resurse Una dintre opțiunile de modelare a unui sistem de calcul distribuit este reprezentarea acestuia ca o structură ierarhică cu mai multe niveluri (Tabelul ) Nivelul inferior este nivelul infrastructurii care combină componentele din care este construit sistemul de calcul distribuit Pe partea hardware, acestea includ procesoare, discuri, rețele și senzori; pe partea software, programe și date Acestea sunt resursele fizice accesate de sistemul de calcul distribuit Tabelul Nivelurile ierarhice ale unui sistem de calcul distribuit Descrierea nivelului Stratul de aplicație Aplicații care partajează și utilizează în mod coerent resurse Nivel de echipă Cercetare, mediere, monitorizare, management al grupurilor de resurse Stratul de resurse Stratul de infrastructură Securitatea și controlul accesului la resurse individuale Resurse fizice, inclusiv computere, stocare pe disc, rețele, senzori, software și date Următorul nivel în sus în ierarhie este nivelul resurselor Acest nivel este responsabil pentru gestionarea resurselor individuale Adesea, o resursă inclusă într-un sistem de calcul distribuit este asociată cu un proces local care gestionează resursa și oferă acces controlat la aceasta pentru utilizatori la distanță Scopul acestui strat este de a oferi straturilor superioare o interfață uniformă prin care acestea să se poată întreba despre caracteristicile resurselor individuale, să le monitorizeze și să le folosească în siguranță Chiar mai sus este nivelul echipei, care operează pe grupuri de resurse Una dintre funcțiile sale este de a explora sistemul de calcul distribuit, identificând locația resurselor Datorită acestor studii, utilizatorul poate găsi ciclurile de procesor necesare, spațiul pe disc sau date specifice Nivelul de echipă poate menține cataloage și alte baze de date pentru a furniza informațiile necesare În plus, poate efectua operațiuni intermediare, reunind furnizori și utilizatori Capitolul Arhitecturi de calculatoare paralele furnizorii de diverse servicii și, poate, de asemenea, prin alocarea de resurse limitate între utilizatorii concurenți Nivelul de echipă este, de asemenea, responsabil pentru propagarea datelor, includerea de noi participanți și resurse în sistemul de calcul distribuit, contabilitatea și întreținerea bazelor de date cu politicile de acces care descriu ce utilizator are acces la ce resurse În partea de sus a ierarhiei se află stratul de aplicație Aplicațiile utilizator funcționează la acest nivel Stratul de aplicație se referă la straturile inferioare pentru a obține drepturi de utilizare a anumitor resurse, trimite cereri pentru utilizarea acestora, monitorizează progresul solicitărilor, gestionează eșecurile, anunță utilizatorul despre rezultate Cheia succesului unui sistem de calcul distribuit este securitatea Proprietarii insistă aproape întotdeauna asupra dreptului la control deplin asupra resurselor lor, cu o monitorizare cuprinzătoare (cine, cât timp și cât de mult le folosesc) Fără un sistem de securitate bun, nicio organizație nu și-ar oferi resursele pentru calcularea distribuită Cu toate acestea, dacă utilizatorul ar trebui să-și introducă numele de utilizator și parola pe fiecare computer implicat în calculul distribuit de care avea nevoie, munca utilizatorului ar deveni prea oneroasă Prin urmare, ar trebui dezvoltat un model de securitate care să ia în considerare aceste considerații Capacitatea de conectare unică este una dintre caracteristicile cheie ale modelului de securitate Primul pas în utilizarea unui sistem de calcul distribuit este înregistrarea și obținerea unui certificat, adică a unui document cu semnătură digitală care indică în interesul cui trebuie efectuată lucrarea Certificatul poate fi delegat, astfel încât, dacă în procesul de calcul sunt necesare unele calcule auxiliare, cu acesta pot fi identificate și procese copil Când un certificat de acces este prezentat unui sistem de la distanță, acesta trebuie mapat la mecanismul său de securitate local De exemplu, UNIX identifică utilizatorii cu identificatori pe biți, dar alte sisteme pot folosi scheme diferite În cele din urmă, este necesar un mecanism prin care politicile de acces să fie stabilite, menținute și actualizate Pentru a susține interacțiunea între diverse organizații și mașini, sunt necesare standarde atât pentru serviciile furnizate, cât și pentru protocoalele de accesare a acestora Pentru a gestiona procesul de standardizare, comunitatea de calcul distribuit a creat o organizație numită Global Grid Forum Rezultatul muncii ei a fost un șablon pentru formarea și dezvoltarea diferitelor standarde, numite OGSA (Open Grid Services Architecture - o arhitectură deschisă pentru servicii de calcul distribuite) Standardele dezvoltate se bazează pe cele existente ori de câte ori este posibil, de exemplu, WSDL (Web Services Definition Language) este folosit pentru a descrie serviciile OGSA Serviciile standardizate în prezent se încadrează în una dintre cele opt categorii, deși această listă va fi, fără îndoială, extinsă în viitor Servicii de infrastructură (oferă interacțiune între resurse) Servicii de management al resurselor (rezervarea și eliberarea resurselor) Servicii de date (copierea și mutarea datelor acolo unde este nevoie) Rezumatul capitolului Servicii de context (descrierea resurselor și politicilor necesare pentru utilizarea acestora) Servicii de informare (obținerea de informații despre disponibilitatea unei resurse) Servicii de autocontrol (menținerea calității declarate a serviciului) Servicii de protecție (aplicarea politicilor de securitate) Servicii de control al execuției (controlul fluxului de sarcini) Se pot spune mult mai multe despre sistemele de calcul distribuite, dar volumul cărții nu ne permite să aprofundăm mai mult în acest subiect Informații suplimentare despre aceste sisteme pot fi găsite în [ , , ] Rezumatul capitolului Devine din ce în ce mai dificil să se realizeze o creștere a performanței computerului pur și simplu prin creșterea frecvenței de ceas, pe măsură ce apare problema eliminării căldurii Prin urmare, dezvoltatorii și-au îndreptat atenția către paralelism ca mijloc de a accelera calculele Paralelismul poate fi introdus la diferite niveluri, atât la cel mai de jos, unde elementele sunt foarte rigid legate între ele, cât și la vârf, unde legăturile sunt foarte slabe Nivelul inferior este paralelismul intra-procesor, când acțiunile paralele sunt efectuate pe baza unui singur cip O formă de paralelism intra-procesor este paralelismul la nivel de instrucțiune; în acest caz, o comandă sau o secvență de comenzi este împărțită în micro-operații care pot fi executate în paralel de diferite blocuri funcționale A doua formă de paralelism intraprocesor este multithreading; în acest caz, procesorul poate alterna între mai multe fire de execuție de program Rezultatul este un multiprocesor virtual A treia formă de paralelism intraprocesor este multiprocesorul cu un singur cip Într-un multiprocesor cu un singur cip, două sau mai multe nuclee sunt plasate pe același cip, ceea ce le permite să funcționeze simultan Următorul nivel în sus în ierarhie sunt coprocesoarele De obicei, coprocesorul este implementat ca o placă încorporată, ceea ce vă permite să creșteți capacitățile de procesare ale procesorului în unele zone speciale, cum ar fi întreținerea protocolului de rețea sau procesarea datelor multimedia Aceste procesoare suplimentare reduc sarcina procesorului principal, lăsându-l liber să facă alte lucruri în timp ce rezolvă sarcini foarte specializate Cu un nivel mai sus sunt multiprocesoarele cu memorie partajată Astfel de sisteme conțin două sau mai multe procesoare complete care partajează o memorie comună Multiprocesoarele cu acces uniform la memorie (mașini UMA) pot comunica printr-o magistrală comună (magistrală de urmărire) sau printr-o rețea de comutare încrucișată sau în mai multe etape Se caracterizează printr-un timp de acces unificat la orice module de memorie În schimb, în multiprocesoarele NUMA, tuturor proceselor li se oferă, de asemenea, un spațiu de adrese comun, dar timpul de acces la modulele de la distanță este vizibil mai lung decât la cele locale În cele din urmă, în multiprocesoarele SOMA, liniile Capitolul Arhitecturi de calculatoare paralele Cache-urile sunt mutate de la o mașină la alta la cerere, dar aceste linii nu au o "acasă adevărată", ca în alte scheme Multicomputerele sunt sisteme cu procesoare multiple, dar fără memorie partajată Fiecare dintre ei are propria sa memorie locală și comunică cu ceilalți prin mesaje Mașinile MPP, cum ar fi BlueGene/L de la IBM, sunt multicalculatoare mari conectate prin rețele de comunicații specializate Multicalculatoarele sunt adesea programate cu pachete software speciale, cum ar fi MPI, care permit dezvoltarea de aplicații orientate pe mesaje Schemele alternative sunt legate de utilizarea memoriei partajate la nivel de aplicație Acestea includ spațiul de adrese paginat din DSM, spațiul tuplu din Linda, obiectele din Orca și Globe Modelele DSM au partajat memorie la nivel de pagină și, în acest sens, sistemul DSM seamănă cu o mașină NUMA, cu excepția, probabil, a supraîncărcării mai mari de acces la distanță La nivelul superior sunt sistemele de calcul distribuite Acestea sunt cele mai slab cuplate sisteme; ele reunesc organizații întregi pentru a rezolva probleme comune, împărtășindu-și puterea de calcul, datele și alte resurse prin Internet Întrebări și sarcini În Pentium, lungimea instrucțiunii poate fi de până la octeți Este Pentium un procesor VLIW? Fie intervalul reprezentării mașinii a numărului - Ce se întâmplă când trunchiați numerele , - , și ? Sunt compatibile următoarele comenzi TriMedia și, dacă nu, de ce nu? ) adunare întregi, scădere întregi, încărcare, adunare în virgulă mobilă, încărcare directă; ) scădere întregi, înmulțire întregi, încărcare directă, deplasare, deplasare; ) încărcare directă, adăugare în virgulă mobilă, multiplicare în virgulă mobilă, ramificare, încărcare directă În fig , ghidul prezintă primele cicluri de instrucțiuni ale mașinii Pentru fiecare opțiune, descrieți ce se întâmplă în următoarele trei cicluri Pe un anumit procesor, cu o pierdere a memoriei cache la nivelul și o atingere a memoriei cache la nivelul , instrucțiunea este executată k cicluri de mașină Lăsați multithreadingul cu granulație fină să fie folosit pentru a masca erorile de cache din memoria cache de nivelul Câte fire de execuție de program trebuie să ruleze simultan pentru a evita complet buclele inactive? Dimineața, regina albină cheamă albinele lucrătoare și le informează că astăzi trebuie să culeagă nectar de gălbenele Albinele lucrătoare zboară din stup și zboară în direcții diferite în căutarea gălbenelelor Ce este acest sistem, SIMD sau MIMD? Întrebări și sarcini Când discutăm despre modelele de consistență a memoriei, am menționat că un astfel de model este un contract între software și memorie De ce este necesar un astfel de contract? Luați în considerare un multiprocesor cu o magistrală comună Ce se întâmplă dacă două procesoare încearcă să acceseze memoria globală în același timp? Să presupunem că, din motive tehnice, cache-ul servo poate urmări doar liniile de adresă, dar nu și liniile de date Va afecta această schimbare protocolul de scriere? Luați în considerare un model simplu de sistem multiprocesor cu o magistrală și fără cache Să presupunem că una din patru instrucțiuni accesează memoria și de fiecare dată când este accesată memoria, magistrala este ocupată pe durata instrucțiunii Dacă magistrala este ocupată, atunci procesorul solicitant este plasat în coada FIFO Cât de repede va rula un sistem cu de procesoare comparativ cu un sistem cu un singur procesor? Protocolul MESI are patru stări Un alt protocol pentru coordonarea cache-urilor de scriere înapoi are trei stări Care dintre statele protocolului MESI pot fi sacrificate și care ar fi consecințele fiecăreia dintre cele patru opțiuni? Dacă ar fi să alegi doar trei stări, pe care le-ai alege? Există situații în protocolul MESI când linia cache este prezentă în memoria cache locală, dar este totuși necesară o tranzacție cu magistrala? Dacă da, vă rugăm să descrieți situația Să presupunem că există n procesoare conectate la magistrala comună Probabilitatea ca unul dintre procesoare să încerce să folosească magistrala într-un anumit ciclu este p Care este probabilitatea ca: ) autobuzul este gratuit ( cereri); ) se face o cerere; ) se fac mai multe cereri Câte circuite de interconectare există într-un procesor Sun Fire E K complet? Să presupunem că firul dintre comutatorul A și comutatorul B din rețeaua omega este deteriorat Ce elemente vor fi separate unul de celălalt? Hotspot-urile (zonele de memorie care sunt accesate frecvent) în rețelele cu mai multe etape reprezintă o problemă serioasă Sunt acestea o problemă în sistemele de autobuze? Rețeaua omega conectează procesoare RISC, fiecare cu un timp de ciclu de ns, la module de memorie infinit de rapide Fiecare element de comutare dă o întârziere de ns Câte sloturi de amânare sunt necesare pentru o comandă LOAD? Luați în considerare o mașină care utilizează rețeaua omega (vezi Figura ) Să presupunem că programul și stiva i sunt stocate în modulul de memorie i Ce modificare minoră a topologiei poate face o mare diferență în performanță? Capitolul Arhitecturi de calculatoare paralele (Această topologie modificată este utilizată în IBM RP și BBN Butter-fly ) Ce dezavantaj are noua topologie față de cea veche? Într-un multiprocesor NUMA, accesarea memoriei locale durează ns, iar accesarea memoriei altui procesor durează ns Programul face N accesări la memorie în timpul execuției, dintre care % sunt accesări la pagina P Inițial, această pagină se află în memoria la distanță, iar C ns este necesar pentru a o copia din memoria locală În ce circumstanțe ar trebui să fie copiată această pagină la nivel local dacă nu o folosește niciun alt procesor? Luați în considerare un multiprocesor CC-NUMA precum cel din fig , dar care conține noduri a câte MB fiecare Dacă linia cache are o lungime de de octeți, care este procentul de supraîncărcare pentru directoare? Cum va afecta creșterea numărului de noduri supraîncărcarea (va crește, va scădea sau va rămâne neschimbată)? Calculați diametrul rețelei pentru fiecare dintre topologiile prezentate în fig Pentru fiecare dintre topologiile prezentate în fig , determinați factorul de toleranță la erori (numărul maxim de linii de comunicație, după pierderea cărora rețeaua nu va fi împărțită în două părți) Se consideră topologia dublu torus (vezi Fig , e) extinsă la dimensiunea k x k Care este diametrul unei astfel de rețele? (Sugestie: k par și impar trebuie luate în considerare separat ) Imaginează-ți o rețea sub forma unui cub de x x Fiecare legătură are o lățime de bandă duplex de GB/s Care este debitul unei secțiuni din această rețea? Legea lui Amdahl limitează potențiala accelerare realizabilă într-un computer paralel Calculați în funcție de f viteza maximă posibilă dacă numărul de procesoare tinde spre infinit Care este valoarea acestei limite pentru /= , ? Figura are scopul de a arăta că scalarea nu este posibilă cu o magistrală, ci posibilă și de dorit cu o rețea Să presupunem că fiecare magistrală sau linie de comunicație are o capacitate b Calculați debitul mediu per procesor pentru fiecare dintre cele patru cazuri Apoi scalați fiecare sistem până la de procesoare și executați aceleași calcule Care este limita dacă numărul de procesoare ajunge la infinit? În această carte, am discutat trei variante ale primitivei de trimitere - sincron, blocant și neblocant Sugerați o a patra opțiune, similară cu blocarea, dar ușor diferită în proprietăți Care sunt avantajele și dezavantajele noii primitive față de operația normală de trimitere de blocare? Luați în considerare un computer care funcționează într-o rețea cu difuzare hardware (ex Ethernet) De ce este important raportul dintre operațiile de citire (care nu schimbă starea internă a variabilelor) și operațiile de scriere (care schimbă starea internă a variabilelor)? Capitolul Bibliografie În capitolele anterioare, am discutat o gamă destul de largă de probleme cu diferite grade de detaliu Acest capitol este destinat acelor cititori care sunt interesați să afle mai multe despre arhitectura computerelor Secțiunea Citire pentru lectură suplimentară oferă o listă de publicații pentru lectură independentă, construită în conformitate cu subiectele tuturor capitolelor acestei cărți Secțiunea Referințe alfabetice conține o listă alfabetică a tuturor cărților și articolelor la care se face referire în această carte Literatură pentru lectură suplimentară Mai jos este o listă de publicații recomandate de autor pentru lectură suplimentară În cea mai mare parte, acestea sunt tutoriale, ghiduri practice și articole de recenzie Literatură introductivă și nespecială Borkar, Obținând cipuri Gigascale Legea lui Moore este probabil să fie valabilă încă zece ani, în cele din urmă riscăm să obținem microcircuite cu miliarde de tranzistori Această perspectivă nu este doar încurajatoare, dar pune și multe probleme dezvoltatorilor Acestea sunt pe care unul dintre cei mai importanți cercetători de la Intel le ia în considerare în articolul său Printre subiectele pe care le tratează se numără disiparea energiei și creșterea rezistenței, inclusiv capacitive, datorită plasării mai dense a conductorilor și reducerii dimensiunii acestora Autorul vede viitorul sistemelor de calcul nu într-o creștere simplă a frecvențelor de ceas, ci într-o combinație de hyper-threading, multiprocesare și organizare îmbunătățită a memoriei Colwell, Cronicile Pentium Robert Colwell este șeful echipei de dezvoltare Pentium În cartea sa, el vorbește despre creatorii acestui microcircuit, precum și despre pasiunile și intrigile din jurul acestuia Hamacher et al , Computer Organization, ed a -a Un manual tradițional despre organizarea computerelor (procesoare, memorie, I/O, aritmetică, periferice) Exemplele principale sunt și Power PC Heath Embedded proiectarea sistemelor Astăzi, aproape toate dispozitivele care costă mai mult de cincizeci de dolari, care funcționează pe curent electric, sunt controlate de computere Această carte - Capitolul Bibliografie despre sistemele de calcul încorporate În primul rând, sunt acoperite elementele de bază ale procesoarelor încorporate, memoriei și perifericelor, după care autorul trece la descrie mai multe categorii specifice, cum ar fi interfețe, sisteme de operare în timp real, software și depanare Hennessy și Patterson, Arhitectura calculatoarelor A Quantitative Approach, ed a -a În acest manual serios, problemele dezvoltării procesorului și memoriei sunt abordate în detaliu Accentul se pune pe atingerea performanțelor înalte, în special prin paralelism și conducte Această carte este pentru cei care doresc să știe totul despre designul procesorului de înaltă performanță Nuli și Lobur, Elementele esențiale ale organizării și arhitecturii computerelor Un alt ghid pentru organizarea sistemelor de calcul, care conturează destul de concis multe dintre subiectele abordate în cartea noastră Patterson și Hennessy, Computer Organization and Design, ed a -a Această ediție, ca și a doua, are peste de pagini, dar acum o parte semnificativă a textului a fost mutată de pe hârtie pe CD-ul însoțitor Gama tematică este foarte largă - aici este analizată arhitectura computerului din diverse puncte de vedere Printre alte subiecte, discuțiile includ aritmetica, performanța, organizarea căilor de date, pipelining, memorie, periferice și clustere Pentium este menționat doar în fragmente din carte, iar majoritatea exemplelor se referă la procesorul MIPS, care a fost proiectat chiar de Hennessy și a dat naștere în primului model comercial al procesorului RISC Prețul, o istorie a mașinilor de calcul Calculatoarele moderne se întorc la mașina lui Babbage din secolul al XIX-lea, dar oamenii au făcut tot felul de calcule încă de la începutul civilizației Acest articol ilustrat urmărește întreaga istorie a numărării, matematicii, calendarelor și calculului din î Hr e până la începutul secolului al XX-lea Slater, Portrete în silicon De ce și-a luat Dennis Ritchie doctoratul de la Harvard? De ce a devenit Steve Jobs vegetarian? Puteți găsi răspunsuri la aceste întrebări și la alte întrebări în această carte fascinantă Cartea conține de biografii scurte ale oamenilor care au modelat industria computerelor (de la Charles Babbage la Donald Knuth) Stallings, Computer Organization and Architecture, ed a VI-a O carte despre arhitectura computerelor De asemenea, ridică întrebările pe care le-am discutat în cartea noastră Wilkes, Calculatoare atunci și acum Autorul cărții, Maurice Wilks, unul dintre primii designeri de computere și inventator de microprogramare, conturează istoria computerelor din până în El vorbește despre războiul dintre adepții programării automate ("cadeții spațiali") și tradiționaliștii care au preferat să programeze în sistem octal Literatură pentru lectură suplimentară Organizarea sistemelor informatice Buchanan și Wilson, Advanced PC Architecture, În ciuda unei anumite spontaneități de prezentare, această lucrare merită recomandări bune ca un ghid bun pentru proiectarea procesoarelor, magistralelor (PCI, SCSI și USB), porturi (jocuri, paralele și seriale) și a altor componente ale PC-ului Ng, Progrese în tehnologia discurilor" probleme de performanta În ultimii de ani, experții au prezis în mod constant învechirea discurilor magnetice Cu toate acestea, discurile sunt încă în uz Această lucrare spune că tehnologia discurilor magnetice se dezvoltă rapid, iar discurile magnetice ne vor servi mulți ani de acum înainte Messmer, The Indispensable PC Hardware Book, ed a -a O carte groasă de de pagini ( de capitole și anexe) care intră în detaliu despre procesoare x , memorie, autobuze, cipuri auxiliare și periferice Dacă ați citit deja cartea lui Norton și Goodman descrisă mai jos și doriți mai multe informații, vă rugăm să consultați această lucrare Norton și Goodman, Inside the PC, ed a -a Majoritatea cărților despre hardware sunt scrise pentru inginerii electronici și sunt greu de citit pentru cei care lucrează în software Această carte nu este așa Acesta spune simplu și clar despre hardware-ul computerelor personale Vorbim de procesoare, memorie, autobuze, discuri, monitoare, dispozitive I/O, calculatoare personale portabile, rețele etc Într-un cuvânt, muncă de o valoare rară Robinson, Către era stocării mai inteligente De pe vremea nucleelor magnetice și a cardurilor perforate, tehnologiile de stocare au evoluat semnificativ Acest scurt articol se concentrează pe trecutul, prezentul și viitorul acestor tehnologii Scheible, Un studiu asupra opțiunilor de stocare O altă lucrare despre tehnologiile de memorie, în care cea mai mare atenție este acordată stării lor actuale Printre subiectele discutate se numără numeroase varietăți de RAM, memorie flash, unități de bandă, hard disk-uri, dischete, CD-uri, DVD-uri Stan și Skadron, Power-Aware Computing, Puterea de calcul a computerelor moderne este în continuă creștere, iar nivelul consumului de energie crește în paralel Odată cu dezvoltarea rapidă a tehnologiei mobile, această problemă devine din ce în ce mai acută Acest articol a fost scris de editorii invitați ca o introducere la subiectul consumului de energie al computerului pentru un număr special al IEEE Computer Magazine Triebel, Procesorul , și Pentium Această carte acoperă diverse probleme legate de interfețe, hardware și software, clasificați-o destul de mult Capitolul Bibliografie dificil Favoarea orientării "hardware" este dovedită doar de faptul că autorul lucrează la Intel În munca sa, el vorbește nu numai despre procesoare, memorie, dispozitive I/O și interfețe ale microcircuitelor x , ci și despre programarea acestora în limbaj de asamblare Cartea are "doar" pagini, dar datorită formatului lor mare, cantitatea de material acoperită nu este inferioară lucrării lui Messmer menționată puțin mai devreme Nivel logic digital Floyd, Digital Fundamentate, ed a -a Această carte ilustrată uriașă este destul de potrivită pentru cei care doresc să studieze mai detaliat nivelul logicii digitale Acesta acoperă logica combinatorie, logica programabilă, flip-flops, registre de deplasare, memorie, interfețe și multe altele Mano și Kime, Logic and Computer Design Fundamentate, ed a III-a Această carte nu este la fel de bine dezvoltată și înțeleasă ca cartea lui Floyd, dar este și un ghid bun pentru nivelul logicii digitale Conține informații despre circuite combinatorii și secvențiale, registre, memorie, procesoare și dispozitive I/O Mayhew și Krishan, PCI Express și Advanced Switching Cel mai probabil, în viitorul apropiat, magistrala PCI Express va înlocui complet magistrala PCI din pozițiile sale actuale Acest articol oferă o descriere cuprinzătoare a acestei noi tehnologii - în special, niveluri ierarhice, mecanism de control al fluxului de date, circuite virtuale, comutare și urmărire Mazidi și Mazidi, The x IBM PC and Compatible Computers, ed a -a Cartea este destinată cititorilor care sunt interesați de structura microcircuitelor tuturor procesoarelor unui computer personal Cartea conține capitole întregi despre microcircuite de bază, precum și o mulțime de alte informații despre hardware și programare în limbaj de asamblare Roth, Fundamentele designului logic Această lucrare conturează principiile de bază de proiectare la nivel de logică digitală În special, autorul descrie utilizarea porților, contoarelor, sumatorilor, flip-flops-urilor și a altor circuite combinatorii și secvențiale în algebra booleană nivelul microarhitecturii Burger și Goodman, arhitecturi de miliarde de tranzistori: acolo și înapoi Imaginați-vă că în vi s-a oferit oportunitatea de a proiecta un cip cu un miliard de tranzistori Ce microarhitectură ați alege pentru un astfel de cip? În septembrie , această întrebare a fost adresată șapte arhitecți de top, care și-au publicat răspunsurile detaliate în IEEE Computer Magazine Șapte ani mai târziu, proiectele lor au fost comparate cu situația tehnologică actuală Rezultatele le puteti afla din acest articol; Literatură pentru lectură suplimentară Handy, Cartea memoriei cache, ed a II-a Problema designului cache-ului este foarte importantă, așa că există cărți întregi dedicate acestei probleme Această carte discută cache-urile logice și fizice, dimensiunea liniei, scrierea și rescrierea, cache-urile grupate și divizate și câteva subiecte legate de software Un întreg capitol este dedicat consistenței cache-urilor într-un multiprocesor Johnson, Design de microprocesor superscalar Dacă sunteți interesat de detaliile dezvoltării procesoarelor superscalare, această carte este locul de început Acesta acoperă invocarea și decodarea instrucțiunilor, execuția instrucțiunilor cu resecvențiere, înlocuirea registrelor, stațiile de redundanță, predicția de ramuri și multe altele Shriver și Smith, Anatomia unui microprocesor de înaltă performanță Această carte este potrivită pentru un studiu detaliat al procesorului modern la nivel de microarhitectură Cipul AMD Kb (clona Pentium) este descris în detaliu Vorbește despre conducte, programarea execuției comenzilor, modalități de îmbunătățire a performanței Sima, Problema cu instrucțiuni superscalare Execuția instrucțiunilor superscalare este extrem de importantă în procesoarele moderne În cartea noastră, am atins câteva aspecte conexe (în special, înlocuirea cazurilor și execuția speculativă) Acest articol abordează aceste întrebări și multe alte întrebări Wilson, Provocări și tendințe în proiectarea procesoarelor Dezvoltarea procesorului este în criză? Șase furnizori de top de procesoare de la Sun, Cyx, Motorola, Mips, Intel și Digital vorbesc despre cum vor evolua procesoarele în următorii câțiva ani În , probabil că va fi amuzant de citit, dar, între timp, este interesant să le cunoaștem pozițiile Stratul de arhitectură set de instrucțiuni Antonakos, Microprocesorul Pentium Primele nouă capitole ale acestei cărți acoperă modul de programare a Pentium-ului în limbaj de asamblare Ultimele două vorbesc despre hardware-ul Pentium Sunt date numeroase fragmente de programe Se ia în considerare sistemul de bază de intrare-ieșire Ayala, Microcontrolerul , ed a -a Dacă doriți să învățați cum să programați controlerele , este logic să începeți cu această carte Bryant și O'Hallaron, Sisteme informatice Perspectiva unui programator Deși destul de haotică, această carte acoperă multe subiecte fundamentale ale nivelului arhitecturii instrucțiunilor, cum ar fi operațiile aritmetice, tipurile de instrucțiuni, fluxurile de control și optimizarea programelor Capitolul Bibliografie Paul, SPARC Arhitectură, limbaj de asamblare, programare și C În mod surprinzător, această carte despre programarea în limbaj de asamblare nu este deloc despre linia de procesoare Intel x Vorbește despre computerul SPARC și despre cum se programează pe el Weaver și Germond, Manualul de arhitectură SPARC În legătură cu internaționalizarea industriei computerelor, problemele de standardizare ies în prim-plan Acest ghid pentru procesorul SPARC versiunea oferă o idee bună despre cum ar trebui să arate standardul Cartea conține, de asemenea, o mulțime de informații utile despre cum funcționează procesoarele SPARC pe de biți Nivelul sistemului de operare Hart, programarea sistemului Win Spre deosebire de majoritatea cărților Windows, aceasta nu este deloc despre interfața grafică cu utilizatorul Se concentrează pe apelurile de sistem Windows și utilizarea acestora pentru accesul la fișiere, gestionarea memoriei și a proceselor, comunicarea între procese, controlul firelor de program, procesele I/O și așa mai departe Jacob și Mudge, memorie virtuală" Probleme de implementare O carte bună despre memoria virtuală modernă Vorbește despre tabelele de pagini și despre bufferul de căutare rapidă folosind procesoare MIPS, Power PC și Pentium ca exemple McKusick et al , Design and Implementation of the BSD Operating System Spre deosebire de majoritatea cărților UNIX, aceasta începe cu o fotografie a celor patru autori la conferința USENIX Trei dintre ei au scris pe larg despre pachetul BSD și sunt foarte calificați în acest subiect Cartea vorbește despre apeluri de sistem, procese, I/O O întreagă secțiune este dedicată rețelelor Ritchie și Thompson, Sistemul de partajare a timpului UNIX Aceasta este prima lucrare pe sistemul UNIX Și totuși merită citit Din această mică sămânță a crescut un sistem de operare grozav Russinovici și Solomon, În interiorul Microsoft Windows, ed a -a Dacă vrei să știi cum funcționează Windows, această carte este pentru tine Se discută despre arhitectura și mecanismele sistemului, procesele, fluxurile de programe, managementul memoriei, securitatea, I/O, memoria cache, sistemele de fișiere etc Publicul țintă este studenții sistemelor informatice și profesioniștii în tehnologia informației Tanenbaum și Woodhull, Sisteme de operare" Proiectare și implementare, ed a II-a Majoritatea cărților despre sistemele de operare tratează doar aspecte teoretice În această carte, teoria este ilustrată cu cod real pentru sistemul de operare MINIX, o clonă a UNIX, care rulează pe computere IBM și alte computere Codul sursă cu comentarii detaliate este dat în anexă Literatură pentru lectură suplimentară Nivel de asamblare Levine, legături și încărcătoare Dacă sunteți interesat de linkere și încărcătoare, înțelegeți formatele obiectelor și bibliotecii și înțelegeți cum diferă legarea statică de conectarea dinamică, această carte este pentru dvs Saloman, Asambleri și Încărcătoare Tot ce ați dorit vreodată să știți despre asamblatorii cu o singură trecere și cu două treceri, precum și despre linkere și încărcătoare, macrocomenzi și legături condiționate Arhitecturi de computere paralele Adve și Gharachorloo, Modele de consistență a memoriei partajate" Un tutorial Multe computere moderne, în special multiprocesoare, acceptă un model de memorie mai puțin strict decât modelul de consistență secvențială Acest tutorial discută diferitele modele și explică modul în care funcționează Numeroase mituri despre un model de memorie slabă sunt, de asemenea, prezentate și infirmate aici Colț, Proiectare sisteme de rețea Prima parte a cărții este dedicată metodelor tradiționale de procesare a pachetelor de rețea A doua parte tratează procesoarele de rețea, scopul acestora, arhitecturile și diverse soluții de proiectare În a treia parte, este analizat un exemplu specific - procesorul de rețea Agere Dally și Towles, Principii și practici ale rețelelor de interconectare Această carte este pentru cei care sunt interesați de rețelele de comunicare După o introducere generală în topologii, sunt luate în considerare topologiile de rețea fluture și torus, precum și topologiile neblocante Acesta este urmat de capitole despre urmărire, controlul fluxului, tamponare, blocaj și probleme conexe Dongarra et al , The Sourcebook of Parallel Computing Tehnicile de programare pentru multiprocesoare și clustere sunt radical diferite de cele pentru sistemele cu un singur proces Șapte experți de top în această carte își prezintă punctele de vedere asupra diferitelor aspecte ale programării paralele, în special despre arhitecturile paralele, tehnologiile software, algoritmii paraleli și unele aplicații NIP, multiprocesoarele ar trebui să accepte modele simple de consistență a memoriei Modelele de memorie non-strictive sunt o problemă importantă și controversată care apare la proiectarea memoriei pentru un multiprocesor Astfel de modele fac posibilă efectuarea anumitor optimizări hardware (de exemplu, schimbarea ordinii acceselor la memorie), dar complică programarea În acest articol, autorul ridică diverse probleme legate de consistența memoriei și ajunge la concluzia că memoria slabă are mai multe probleme decât beneficii Capitolul Bibliografie Hwang și Xu, Scalable Parallel Computing Autorii iau în considerare atât software-ul, cât și hardware-ul, așa că au reușit să acopere subiectul calculului paralel într-un mod cuprinzător și accesibil Cartea vorbește despre multiprocesoare UMA și NUMA, sisteme MPP, clustere, transmitere de mesaje, programare paralelă Lawton, unitățile de procesoare de rețea își vor îndeplini promisiunile Se crede că procesoarele de rețea sunt capabile să accelereze procesarea pachetelor, dar este încă dificil să se garanteze acest lucru În articolul său, autorul analizează atât tehnologia în sine, cât și o serie de factori care pot afecta dezvoltarea ulterioară a acesteia McKnight și colab , Wireless Grids, De îndată ce a apărut computerul distribuit, problema următoarei lor generații, fără fir, a devenit relevantă La fel ca sistemele de calcul distribuite convenționale, versiunea lor fără fir servește la partajarea resurselor de calcul ale diferitelor organizații pentru a crea organizații virtuale, dar utilizatorii mobili pot fi, de asemenea, implicați în calculul distribuit fără fir Următoarele două lucrări sunt, de asemenea, dedicate calculului distribuit fără fir Pfister, În căutarea clusterelor, ed a -a Deși definiția unui cluster apare doar la pagina (un grup de calculatoare care lucrează împreună), acest concept include în mod evident toate sistemele convenționale multicomputer și multiprocesor Hardware-ul și software-ul lor, performanța și disponibilitatea sunt luate în considerare în detaliu Avertizăm cititorul: deși stilul de prezentare al autorului pare la început fascinant, până la pagina a -a, toată fascinația dispare Snir şi colab , MPP Manualul de referință complet Numele vorbește de la sine Dacă doriți să învățați cum să programați folosind pachetul MPI, vă rugăm să consultați acest manual Cartea acoperă interacțiunea punct-la-punct și colectivă, comunicatori, managementul mediului și multe altele Stenstrom și colab , Trends in Shared Memory Multiprocessing Multiprocesoarele cu memorie partajată sunt adesea considerate supercalculatoare pentru calculul științific complex În realitate, aceasta este doar o mică parte a pieței lor Articolul discută ce domenii acoperă piața pentru astfel de mașini și care este semnificația arhitecturii lor Ungerer și colab , A Survey of Processors with Explicit Multithreading Această lucrare conturează principiile de funcționare a tuturor tipurilor majore de multithreading Pe lângă partea teoretică, există exemple de aplicații științifice și comerciale ale acestei tehnologii în sistemele de calcul Wolf, Viitorul sistemelor multiprocesoare pe cipuri După ce a descris trei soluții moderne de design pentru sisteme cu un singur procesor, autorul ia în considerare problemele viitoarelor hardware și software Literatură pentru lectură suplimentară de furnizare a unor astfel de sisteme În special, sunt abordate problemele de funcționare în timp real, disiparea puterii, sisteme de operare și securitate Numere binare și în virgulă mobilă Cody, Analiza propunerilor pentru standardul în virgulă mobilă Cu ceva timp în urmă, IEEE a propus o arhitectură de instrucțiuni în virgulă mobilă care a devenit standardul de fado pentru toate procesoarele moderne Autoarea discută diverse întrebări, sugestii și obiecții care au apărut în timpul standardizării IEEE, Proc al celui de-al n-lea Simpozion de aritmetică computerizată Contrar credinței populare, aritmetica este un domeniu de cercetare activă O mulțime de lucrări științifice au fost scrise de specialiști La simpozionul căruia îi sunt dedicate aceste materiale, subiectele progresiilor, algoritmii de adunare rapidă și înmulțire, hardware aritmetic VLSI, coprocesoare , toleranța la erori, rotunjirea și multe altele au fost discutate Cohen, Algoritmi de aritmetică computerizată O lucrare de aritmetică care se concentrează pe algoritmi rapidi pentru adunare, înmulțire și împărțire Lectură recomandată celor care cred că până în clasa a șasea de liceu au știut și au citit tot ce este posibil despre aritmetică Knuth, Algoritmi semimerici, ed a III-a Material extins despre sisteme de numere poziționale, aritmetică în virgulă mobilă, aritmetică cu precizie multiplicată și numere aleatoare Cartea necesită și merită un studiu atent Wilson, Kit de supraviețuire în virgulă flotantă Carte bună pentru începători despre numerele și standardele în virgulă mobilă Discută câteva probleme populare legate de numerele în virgulă mobilă (de exemplu, Linpack) Programare în limbaj de asamblare Blum, limbaj de asamblare profesional Limbajul de asamblare Procesor Pentium Ghidul programator Presupune că aparatul Pentium al cititorului rulează Linux Se concentrează pe asamblatorul Linux, instrumentele GNU și apelurile de sistem Linux Irvine, Limbajul de asamblare pentru computere bazate pe Intel, ed a -a Subiectul principal al cărții este programarea procesoarelor Intel în limbaj de asamblare În plus, aici sunt abordate probleme de programare I/O, macrocomenzi, fișiere, legături, întreruperi etc Capitolul Bibliografie Lista alfabetică de referințe Adams, M și Dulchinos, D "OpenCable", IEEE Commun Magazine, voi , pp - , iunie Adiga, N R et al "O prezentare generală a supercomputerului BlueGene/L", Proc Supercomputing , ACM, pp - , Adve, SV, and Charachorloo, K "Shared Memory Consistency Models: A Tutorial", ІЕЕЕ Computer Magazine, voi , p - , decembrie Adve, SV și HUI, M "Ordinarea slabă: O nouă definiție", Proc a -a An Int'l Symp on Computer Arch , ACM, p - , Agerwala, T și Cocke, J "Procesoare de set de instrucțiuni reduse de înaltă performanță", IBM TJ Raportul tehnic al Centrului de Cercetare Watson RC , Alameldeen, AR și Wood, DA "Adaptive Cache Compression for High-Performance Processors" Proc An Int'l Sym pe Computer Arch ACM, p - , Almasi, GS et al "Gestionarea sistemului în supercomputerul BlueGene/L", Proc Int'l Paralel și Distr Proc Symp , ІЕЕЕ, a Almasi, GS şi colab "O privire de ansamblu asupra organizației software de sistem Bluegene/L", Par Proc Scrisori, voi , - , aprilie b Amza, С , Cox, A , Dwarkadas, S , Keleher, P , Lu, H , Rajamony, R , Yu, IV, Zwae-nepoel, IV "TreadMarks: Shared Memory Computing pe o rețea de stații de lucru", ІЕЕЕ Computer Magaxine, voi , p - , februarie Anderson, D Universal Serial Bus System Architecture, Reading, MA: Addison-Wesley, Anderson, D , Budruk, R și Shanley, T PCI Express System Architecture, Reading, MA: Addison-Wesley, Anderson, TE, Culler, DE, Patterson, DA, și echipa NOW "A Case for NOW (Networks of Workstations)", ІЕЕЕ Micro Magazine, voi , p - , februarie Antonakos, JL Microprocesorul Pentium, Upper Saddle River, NJ: Prentice Hali, august, D L, Connors, DA, Mshlke, SA, SIAS, JW, Crozier, К M , Cheng, B -C , Eaton, PR, Olaniran, QB și HWU, W -M "Execuția integrată predicată și speculativă în arhitectura IMPACT EPIC", Proc a -a An Int'l Symp on Computer Arch , ACM, pp - , Ayala, K The Microcontoller, a -a ed , Clifton Park, NY: Thomson Delmar Leaning, Bal, HE Programming Distributed Systems, Hemel Hempstead, Anglia: Prentice Hali Int'l , Bal, HE, Bhoedjang, R , Hofman, R, Jacobs, C , Langendoen, K , Ruhl, T și Kaashoek, MF "Performance Evaluation of the Orca Shared Object System", ACM Trans on Computer Systems, voi , p - , februarie Алфавитный список литературы Bal, Н Е , Kaashoek, М Е și Tanenbaum, А S "Огса: А Language for Parallel Programming of Distributed Systems", ІЕЕЕ trad pe Ingineria Software, voi , p - , martie Bal, HE și Tanenbaum, AS "Distributed Programming with Shared Data", Proc Int'l Conf despre limbaje computerizate, ІЕЕЕ, pp - , Barroso, LA, Dean, J , Holzle, U "Web Search for a Planet: The Google Cluster Architecture", ІЕЕЕ Micro Magazine, voi , p - , martie-aprilie Bechini, A , Conte, TM și Prete, CA "Oportunități și provocări în sistemele încorporate", ІЕЕЕ Micro Magazine, voi , p - , iulie-aug Benini, L și De Micheli, G "Networks on Chips A New SoC Paradigm", ІЕЕЕ Computer Magazine, voi , p - , ian Berman, F , Fox, G și Hei, AJ G "Grid Computing: Making the Global Infrastructura o Reality", Hoboken, NJ: John Wiley, Bjomson, RD "Linda on Distributed Memory Multiprocessors", teză de doctorat, Yale Univ , Blum, R Professional Assembly Language, New York: Wiley, Blumrich, M , Chen, D , Chiu, G , Coteus, P , Gara, A , Giampapa, ME, Haring, RA , Heidelberger, P , Hoenicke, D , Kopcsay, GV, Ohmacht, M , Steinmacher-Burow, BD, Takken, T , Vransas, P și Liebsch, T "An Overview of the BlueGene/L System", IBM J Research and Devei , voi , martie-mai, Borkar, S "Getting Gigascale Chips", Queue, pp - , oct Bose, P "Computer architecture research: Shifting priorities and newer challenges", ІЕЕЕ Micro Magazine, voi , p , nov-dec Bouknight, WJ, Denenberg, SA, Mcintyre, DE, Randall,} M , Sameh, AH și Slotnick, DL "The liliac IV System", Proc ІЕЕЕ, p - , aprilie Brightwell, R , Câmp, W , Cole, B , DeBenedictis, Leland, R, and TompkinsJ "Specificații arhitecturale pentru calculatoare masiv paralele - O abordare bazată pe experiență și măsurători", ftp://ftp cs sandia gov/pub/papers/bright/redstorm-ccpe pdf Bryant, RE și O'Hallaron, D Computer Systems: A Programmer's Perspective Upper Saddle River, NJ: Prentice Hali, Buchanan, W , Wilson, A Advanced PC Architecture, Reading, MA: Addison-Wesley, Burger, D și Goodman, JR "Billion-Transistor Architectures: There and Back Again", ІЕЕЕ Computer Magazine, voi , p - , martie Burkhardt, H , Frank, S , Knobe, B și Rothnie, J "Overview of the KSR- Computer System", Raport tehnic KSR-TR- , Kendall Square Research Corp, Cambridge, MA, Cain, H , and Lipasti, M "Ordinarea memoriei: o abordare bazată pe valoare", Proc a -a An Simp Internaţional on Computer Arch , ACM, pp - , Глава Библиография Calcutt, D , Cowan, F și Parchizadeh, H Microcontrollers: An Appli-cations Based Introduction, Oxford: Newnes, Carriero, N , și Gelernter, D "Linda și Context", Comun al ACM, voi , p - , aprilie Charlesworth, A "The Sun Fireplane Interconnect", ІЕЕЕ Micro Magazine, voi , p - , ian -feb Charlesworth, A "The Sun Fireplane Interconnect", Proc Conf pe High Perf Networking and Computing, ACM, Charlesworth, A , Phelps, A , Williams, R și Gilbert, G "Gigaplane-XB: Exten-ding the Ultra Enterprise Family", Proc Hot Interconnects V, ІЕЕЕ, Chen, L , Dropsho, Albonesi, DH "Dynamic Data Dependence Tracking and its Application to Branch Prediction", Proc Simptomul Internațional al nouălea despre High-Performance Computer Arch , ІЕЕЕ, pp - , Chou, K, Fahs, B , Abraham, S "Microarchitecture Optimizations for Exploiting Memory-Level Parallelism", CQ Proc An Simp Internaţional on Computer Arch , ACM, pp - , Claasen, TACM "System on a Chip: Changing IC Design Today and in the Future", ІЕЕЕ Micro Magazine, voi , p - , mai-iunie Cody, J "Analysis of Proposals for the Floating-Point Standard", ІЕЕЕ Computer Magazine, voi , p - , martie Cohen, D "On Holy Wars and a Plea for Peace", ІЕЕЕ Computer Magazine, voi , p - , octombrie Colwell, R The Pentium Chronicles New York: Wiley, Corner, DE "Network Systems Design Using Network Processors: Agere Version", Upper Saddle River, NJ: Prentice Hali, Corbato, FJ "PL/ as a Tool for System Programming", Datamation, voi , p - , mai Corbato, FJ și Vyssotsky, VA "Introducere și prezentare generală a sistemului MULTICS", Proc FJCC, p - , Crowley, P , Franklin, MA, Hadimioglu, EL și Onufryk, PZ Network Processor Design: Issues and Practices, Voi , San Francisco: Morgan Kaufmann, Dally, WJ și Towles, BP Principles and Practices of Interconnection Networks, San Francisco: Morgan Kaufmann, Daneshbeh, AK și Hasan, MA "Criptoprocesor de curbă eliptică de mare viteză eficientă în zonă pentru curbe aleatorii", Proc Int'l Conf pe Inf Teh : Coding Speculative Execution and Computing, ІЕЕЕ, pp - , Dean, AG "Efficient Real-Time Fine-Grained Concurrency on Low-Cost Microcontrollers", ІЕЕЕ Micro Magazine, voi , p - , iulie-aug Denning, PJ "The Working Set Model for Program Behavior", Comun al ACM, voi , p - , mai Алфавитный список литературы Dijkstra, Е W "Declarația GOTO considerată dăunătoare", Comun al ACM, voi , p - , martie a Dijkstra, EW "Co-operating Sequential Processes", în Programming Languages, F Genuys (ed ), New York: Academic Press, b Donaldson, G și Jones, D "Arhitecturi de rețea de bandă largă de televiziune prin cablu", ІЕЕЕ Commun Magazine, voi , p - , iunie Dongarra, J , Foster, L, Fox, G , Gropp, IF , Kennedy, K, Torczon, L și White, A The Sourcebook of Parallel Computing San Francisco: Morgan Kaufman, Dubois, M , Scheurich, C și Briggs, F A "Buffering pentru acces la memorie în multi-procesoare", Proc a -a An Int'l Symp on Computer Arch , ACM, pp - , Dulong, C "The IA- Architecture at Work", ІЕЕЕ Computer Magazine, voi , p - , iulie Dutta-Roy, A "O privire de ansamblu asupra tehnologiei modemului prin cablu și perspectivelor pieței", ІЕЕЕ Commun Magazine, voi , p - , iunie Eschmann, E, Klauer, B , Moore, R și Waldschmidt, K "SDAARC: An Extended Cache-Only Memory Architecture", ІЕЕЕ Micro Magazine, voi , p - , mai-iunie, Faggin, F , Hoff, ME, Jr , Mazor, S și Shima, M "The History of the ", ІЕЕЕ Micro Magazine, voi , p - , noiembrie Falcon, A , Stark, J , Ramirez, A , Lai, K și Valero, M "Prophet/Critic Hybrid Branch Prediction", Proc a -a An Simp Internaţional on Computer Arch , ACM, p - , Fisher, JA și Freudenberger, SM "Predicting Condițional Branch Direc-tions from Previous Runs of a Program", Proc a -a Conf pe Arh Suport pentru Prog Lang şi Operating Syst , ACM, pp - , Floyd, TL Digital Fundamentals, a -a ed , Upper Saddle River, NJ: Prentice Hali, Flynn, D "AMBA: Enabling Reusable On-Chip Designs", ІЕЕЕ Micro Magazine, voi , p - , iulie Flynn, MJ "Unele organizații de calculatoare și eficacitatea lor", ІЕЕЕ Trans pe computere, voi C- , p - , septembrie Foster, L și Kesselman, C The Grid : Blueprint for a New Computing Infrastructure, San Francisco: Morgan Kaufman, Foster, L, Kesselman, C , Nick, JM și Tuecke, S "Grid Services for Distributed Systems Integration", ІЕЕЕ Computer Magazine, voi , p - , iunie Foster, L, and Kesselman, C "Globus: A Metacomputing Infrastructure Toolkit", Int'L J of Supercomputer Applications, voi , p - , a Foster, L și Kesselman, C "The Globus Project: A Status Report", Atelierul de calcul heterogen IPPS/ SPDP ' , ІЕЕЕ, pp - , b Глава Библиография Fotheringham, J "Alocarea dinamică a stocării în computerul Atlas, inclusiv utilizarea automată a unui magazin de suport", comun al ACM, voi , p - , octombrie Geist, A , Beguelin, A , Dongarra, J , Jiang, IV , Mancheck, R și Sunderram, V, PVM: Parallel Virtual Machine - A User's Guide and Tutorial for Networked Parallel Computing, Cambridge, MA: MIT Press, Gerber, R și Binstock, A Programming with Hyper-Threading Technology, Santa Clara, CA: Intel Press, Ghemawat, S , Gobioff, H și Leung, S -T "Sistemul de fișiere Google", Proc Symp despre principiile sistemelor de operare, ACM, pp - , Goodman, J R, "Utilizarea memoriei cache pentru a reduce traficul din memoria procesorului", Proc lOth Ann Int'l Symp on Computer Arch , ACM, pp - , Goodman JR "Consistența cache și consistența secvențială", Tech Rep , ІЕЕЕ Scalable Coherent Interface Working Group, ІЕЕЕ, Grimshaw, A și Wulf, IV "Legiune: O vedere de la de picioare", Proc al cincilea Int'l Symp on High-Performance Distributed Computing, ІЕЕЕ, pp - , august Grimshaw, A și Wulf, IV "Viziunea Legiunii a unui computer virtual mondial", Comun al ACM, voi , p - , ianuarie Gropp, IV , Lusk, E și Skjellum, A "Using MPI: Portable Parallel Programming with the Message Passing Interface", Cambridge, MA: MIT Press, Gurumurthi, S , Sivasubramaniam, Kandemir, M și Franke, H "Reducing Disk Power Consumption in Servers with DRPM", ІЕЕЕ Computer Magazine, voi , p - , decembrie Hagersten, E , Landin, A , Haridi, S "DDM - A Cache-Only Memory Architecture", ІЕЕЕ Computer Magazine, voi , p - , septembrie Hamacher, VV, Vranesic, ZG și Zaky, G Computer Organization, a -a ed , New York: McGraw-Hill, Hamming, R IV "Detectarea erorilor și codurile de corectare a erorilor", Beli Syst Teh J , voi , p - , aprilie Hammond, L, Wong, V , Chen, M , Hertzberg, B, Davis, J , Carlstrom, B , Prabhu, M , Wijaya, H, Kozyrakis, C și Olukotun, K " Coerența și consistența memoriei tranzacționale", Proc a -a An Simp Internaţional on Computer Arch , ACM, pp - , Handy, J The Cache Memory Book, a doua ed , Orlando, FL: Academic Press, HartJ M Win System Programming, Reading, MA: Addison-Wesley, Heath, S Embedded Systems Design, Oxford: Newnes, Henkel, J , Ни, XS și Bhattacharyya, SS, "Taking on the Embedded System Challenge", ІЕЕЕ Computer Magazine, voi , p - , aprilie Hennessy, J, L "VLSI Processor Architecture", ІЕЕЕ Trans pe computere, voi C- , p - , decembrie Алфавитный список литературы Hennessy, JL și Patterson, DA Computer Architecture A Quantitative Approach, ed a -a San Francisco: Morgan Kaufmann, HUI, M "Multiprocessors Should Support Simple Memory-Consistency Models", ІЕЕЕ Computer Magazine, voi , p - , august Hinton, G , Sager, D , Upton, M , Boggs, D , Carmean, D , Kyker, A , Roussel, P "The Microarchtecture of the Pentium ", Intel Technology Journal, voi , p - , ian-martie, Hoare, CAR "Monitoarele, un concept de structurare a sistemului de operare", Comun al ACM, voi , p - , octombrie ; Eroare în comun al ACM, voi , p , februarie Huh,J , Burger, D , Chang,J și Sohi, GS "Speculative Incoherent Cache Pro-tocols", ІЕЕЕ Micro Magazine, voi , p - , nov -dec Hwang, K și Xu, Z Scalable Parallel Computing, New York: McGraw-Hill, Hwu, W -M "Introduction to Predicated Execution", ІЕЕЕ Computer Magazine, voi , p - , ianuarie Irvine, K Assembly Language for Intel-Based Computers, a patra ed , Upper Saddle River, NJ: Prentice Hali, Jacob, B și Mudge, T "Virtual Memory: Issues of Implementation", ІЕЕЕ Computer Magazine, voi , p - , iunie a Jacob, B și Mudge, T "Virtual Memory in Contemporary Microprocessors", ІЕЕЕ Micro Magazine, voi , p - , iulie/aug b Jerraya, AA și Wolf IV Multiprocessor Systems-on-a-Chip, San Francisco: Morgan Kaufmann, Jimenez, DA "Fast Path-Based Neural Branch Prediction", Proc Simptomul Internațional al -lea despre Microarhitectură, ІЕЕЕ , pp - , Johnson, KL, Kaashoek, MF și Wallach, DA "CRL: High-Performance AII-Software Distributed Shared Memory", Proc al -lea Symp despre principiile sistemelor de operare, ACM, pp - , Johnson, M Superscalar Microprocessor Design, Englewood Cliffs, NJ: Prentice Hali, Kalla, R , Sinharoy, B și Tendler,JM "IBM Power Chip: A Dual-Core Multi-threaded Processor", ІЕЕЕ Micro Magazine, voi , p - , martie-aprilie Kapasi, UJ, Rixner, S , Dally, WJ, Khailany, B , Ahn,J H, Mattson, P și Owens, JD "Procesoare de flux programabile", ІЕЕЕ Computer Magazine, voi , p - , august Kapil, S , MC Ghan, H, și Lawrendra, J "Un procesor cu mai multe fire de cip pentru sarcini de lucru care se confruntă cu rețea", ІЕЕЕ Micro Magazine, voi , p - martie-aprilie Katz, RH și Borriello, G Contemporary Logic Design, Upper Saddle River NJ: Prentice Hali, Глава Библиография Kaufman, С , Perlman, R și Speciner, M Network Security, a doua ed , Upper Saddle River, NJ: Prentice Hali, Kermarrec , A -M , Kuz, I , Van Steen, M și Tanenbaum, AS "A Framework for Consistent Replicated Web Objects", Proc al -lea Int'l Conf pe Distr Computing Syst , ІЕЕЕ, pp - , Kim, NS, Austin, T , Blaauw, D , Mudge, T , Flautner, K , Hu, JS, Irwin, MJ, Kandemir, M și Narayanan, V "Leakage Current: Moore's Law Meets Static Power", ІЕЕЕ Computer Magazine, voi , p - , decembrie Knuth, DE "An Empirical Study of FORTRAN Programs", Software - Practice & Experience, voi , p - , Knuth, DE The Art of Computer Programming: Fundamental Algorithms, a -a ed Reading, MA: Addison-Wesley, Knuth, DE The Art of Computer Programming: Seminumerical Algorithms, ed a -a, Reading, MA: Addison-Wesley, Kogel, T și Myer, H "Heterogeneous MP-SoC: the solution to energy-efficient process processing signal", Proc I-a Ann Conf on Design Automation, ІЕЕЕ, pp - , Kontothanassis, L , Hunt, G , Stets, R , Hardavellas, N , Ciemiad, M , Parthasarathy, S , Meira, W , Dwarkadas, S și Scott, M VM-Based Memorie partajată pe rețele de acces la memorie la distanță cu latență scăzută, Proc a -a An Int'l Symp on Computer Arch , ACM, pp - , Koren, I Computer Arithmetic Algorithms, Natick, MA: AK Peters, Koufaty, D și Marr, DT "Tehnologia Hyperthreading în microarhitectura Netburst", ІЕЕЕ Micro Magazine, voi , p - , martie-aprilie Kumar, R , Jouppi, N P și Tullsen, DM "Conjoined-Core Chip Multi-processing", Proc Simptomul Internațional al -lea despre Microarhitectură, ІЕЕЕ , pp - , Lamport, L "Cum să Маке un computer multiprocesor care execută corect programe cu mai multe procese", ІЕЕЕ Trans pe computere, voi C- , p - , sept LaRowe, RP, and Ellis, CS "Experimental Comparison of Memory Management Policies for NUMA Multiprocessors", ACM Trans on Computer Systems, voi , p - , noiembrie Lavagno, L "Systems on a Chip: The Next Electronic Frontier", ІЕЕЕ Micro Magazine, voi , p - , sept -oct Lawton, G "Vor unitățile de procesoare de rețea să își atingă promisiunea?", ІЕЕЕ Computer Magazine, voi , p - , aprilie Lekkas, PC Network Processors: Architectures, Protocols, and Platforms, New York: McGraw-Hill, Levine, JR Linkers and Loaders, San Francisco: Morgan Kaufmann, Алфавитный список литературы Li, К și Hudak, Р "Coerența memoriei în sistemele de memorie virtuală partajată", ACM Trans on Computer Systems, voi , p - , noiembrie Lima, F, Carro, L , Velazco, R și Reis, R "Injecting Multiple Upsets in a SEU Tolerant Micro-Controller", Proc Al optulea ІЕЕЕ Atelierul internațional de testare on-line ІЕЕЕ, p , iulie Lines, A "Asynchronous Interconnect for Synchronous SoC Design", ІЕЕЕ Micro Magazine, voi , p - , ian -feb Lu, H , Cox, AL, Dwarkadas, S , Rajamony, R și Zwaenepoel, IV "Software Distributed Shared Memory Support for Neregulate Applications", Proc a -a Conf despre Prin și Practice of Parallel Progr , pp - , iunie Lukasiewicz,J Silogistica lui Aristotel, ed a -a, Oxford: Oxford University Press, Lutz, J și Hasan, A "Procesorul criptografic al curbei eliptice bazat pe FPGA de înaltă performanță", Proc Int'l Conf pe Inf Tech : Coding and Computing, ІЕЕЕ, pp - , Lyytinen, K, și Yoo, Y "Issues and Challenges in Ubiquitous Computing", Commun al ACM, voi , p - , decembrie MacKenzie, IS, Phan, R The Microcontroller, ed a -a Upper Saddle River, NJ: Prentice Hali, Mano, MM și Kime, CR Logic and Computer Design Fundamentals, a -a ed , Upper Saddle River, NJ: Prentice Hali, Martin, AJ,, Nystrom, M , Papadantonakis, K, Penzes, PL, Prakash, P , Wong, CG, Chang, J , Ко, KS, Lee, В , Ou, E , Pugh, J, Talvala, EV,, Tong, JT și Tura, A "The Lutonium: A Sub-Nanojoule Asynchronous Microcontroller", Proc Simptomul Internațional al nouălea despre circuite și sisteme asincrone ІЕЕЕ, pp - , Martin, RP, Vahdat, AM, Culler, D, E, și Anderson, TE "Efectele de latență de comunicare, supraîncărcare și lățime de bandă într-o arhitectură de cluster", Proc a -a An Int'l Symp on Computer Arch , ACM, pp - , Mayhew, D și Krishnan, V "PCI Express and Advanced Switching: Evolutionary Path to Building Next Generation Interconnects", Proc al ll-lea simptom pe High Perf Interconnects ІЕЕЕ, pp - , aug Mazidi, MA, McKinlay și Mazidi, JG Microcontroller and Embedded Systems Upper Saddle River, NJ: Prentice Hali, Mazidi, MA și Mazidi, JG The x IBM PC and Compatible Compu-ters, a -a ed , Upper Saddle River, NJ: Prentice Hali, McKnight, LW, Howison, J și Bradner, S "Wireless Grids", ІЕЕЕ Internet Computing, voi , p - , iulie-aug McKusick, M K, Bostic, K, Karels, M și Quarterman, JS "The Design and Implementation of the BSD Operating System", Reading, MA: Addison-Wesley, McKusick, MK, Joy, IV N , Leffler, SJ și Fabry, RS "Un sistem de fișiere rapid pentru UNIX", ACM Trans on Computer Systems, voi , p - , august Глава Библиография McNairy, С , and Soltis, D "Itanium Processor Microarchitecture", ІЕЕЕ Micro Magazine, voi , p - , martie-aprilie Min, R ,Jone, W -Ben și Ни, Y "Location Cache: A Low-Power L Cache System", Proce Int'l Symp on Low Power Electronics and Design, ІЕЕЕ, pp - , august Messmer, H -P The Indispensable PC Hardware Book, a patra ed Reading, MA: Addison-Wesley, Moudgill, M , and Vassiliadis, S "Precise Interrupts", ІЕЕЕ Micro Magazine, voi , p - , februarie Mullender, SJ și Tanenbaum, AS "Immediate Files", Software - Practice and Experience, voi , p - , Nesbit, KJ, and Smith,JE "Data Cache Prefetching Using a Global History Buffer", Proc Simp pe High Perf Computer Arch , ІЕЕЕ, p - , Ng, W, "Advances in Disk Technology: Performance Issues", ІЕЕЕ Computer Magazine, voi , p - , mai Nickolls, J , Madar, LJ III, Johnson, S , Rustagi, V , Unger, K și Choudhury, M "Calisto: A Low-Power Single-Chip Multiprocessor Communications Platform", ІЕЕЕ Micro Magazine , voi , p - , martie Norton, P și Goodman, J Inside the PC, ed a -a, Indianapolis, IN: Sams, Nuli, L și Lobur,J Elementele esențiale ale organizării și arhitecturii computerelor, Sudbury, MA: Jones și Bartlett, O'Connor, JM, and Tremblay, M "Picojava-I: The Java Virtual Machine in Hardware", ІЕЕЕ Micro Magazine, voi , p - , martie/aprilie Organick, E The MULTICS System, Cambridge, MA: MIT Press, Oskin, M , Chong, F T și Chuang, IL "A Practicai Architecture for Reliable Quantum Computers", ІЕЕЕ Computer Magazine, vol , pp - , ianuarie Ouadjaout, S, și Houzet, D "Easy SoC Design with VCI SystemC Adapters", Proc Digital System Design, ІЕЕЕ, pp - , Papaefstathiou, L, Nikolaou, N,A, Doshi, B și Grosse, E "Network Processors for Future High-End Systems and Applications", ІЕЕЕ Micro Magazine, voi , p - , sept -oct Papamarcos, M și Patel , J "A Low Overhead Coherence Solution for Multiprocessors with Private Cache Memories", Proc a -a Ann Int'l Symp on Computer Arch , ACM, pp - , Parikh, D,, Skadron, K , Zhang, Y și Stan, M "Power-Aware Branch Predic-tion: Characterization and Design", ІЕЕЕ Trans pe computere, voi , p - , februarie Patterson, DA "Reduced Instruction Set Computers", Comun al ACM, voi , p - , ianuarie Алфавитный список литературы Patterson, D, А , Gibson, G și Katz, R "A case for redundant arrays of inexpensive disks (RAID)", Proc ACM SIGMOD Int'l Conf on Management of Data, ACM, pp - , Patterson, D, A și Hennessy, JL Computer Organization and Design, a treia ed , San Francisco, CA: Morgan Kaufmann, Patterson, DA și Sequin, С H "A VLSI RISC", ІЕЕЕ Computer Magazine, voi , p - , sept Paul, RP SPARC Architecture, Assembly Language, Programming, and C, Engle-wood Cliffs, NJ: Prentice Hali, Pfister, GF In Search of Clusters, a doua ed , Upper Saddle River, NJ: Prentice Hali, Popescu, BC, Steen, M Van, și Tanenbaum, AS "A Security Architecture for Object-Based Distributed Systems", Proc Cea de-a -a aplicație anuală de securitate informatică Conf , ACM, p - , Pountain, D "Pentium: Mai mult RISC decât CISC", Byte, voi , p - , sept Price, D, "A History of Calculating Machines", ІЕЕЕ Micro Magazine, voi , p - , februarie Radin, G, "The Minicomputer", Computer Arch Știri, voi , p - , martie Raman, SK, Pentkovski, V , and Keshava,J, "Implementing Streaming SIMD Extensions on the Pentium III Processor", ІЕЕЕ Micro Magazine, voi , p - , iulie-aug Ravikumar, CP "Arhitecturi multiprocesoare pentru aplicații de sistem încorporat pe cip", Proc a -a Conf Internațională despre VLSI Design, ІЕЕЕ, pp - , ian Ritchie, DM și Thompson, K "The UNIX Time-Sharing System", Commun al ACM, voi , p - , iulie Robinson, GS "Toward the Age of Smarter Storage", ІЕЕЕ Computer Magazine, voi , p - , decembrie Rosenblum, M, și Ousterhout, JK "Proiectarea și implementarea unui sistem de fișiere structurat în jurnal", Proc Al treisprezecelea simptom despre principiile sistemului de operare, ACM, pp - , Roth, С, H, Fundamentals of Logic Design, ed a -a, Florence, KY: Thomson Engineering, Russinovich, ME și Solomon, DA Microsoft Windows Internals, ed a -a, Redmond, WA: Microsoft Press, Rusu, S,, Muljono, H, and Cherkauer, B "Itanium Processor M", ІЕЕЕ Micro Magazine, voi , p - , martie-aprilie Saha, D și Mukheijee, A "Pervasive Computing: A Paradigm for the st Century", ІЕЕЕ Computer Magazine, voi , p - , martie Глава Библиография Sakamura, К "Making Computers Invisible", ІЕЕЕ Micro Magazine, voi , p - , Saloman, D Assemblers and Loaders, Englewood Cliffs, NJ: Prentice Hali, Scales, DJ, Gharachorloo, K și Thekkath, CA "Shasta: O abordare cu costuri reduse doar pentru software pentru sprijinirea memoriei partajate cu granulație fină", Proc al -lea Int'l Conf pe Arh Suport pentru Prog Lung și Oper Syst , ACM, pp - , Scheible,JP "A Survey of Storage Options", ІЕЕЕ Computer Magazine, voi , p - , decembrie Seltzer, M , Bostic, K , McKusick, MK și Staelin, C "An Implementation of a Log-Structured File System for UNIX", Proc Iarna USENIX Technical Conf , pp - , Shanley, T , and Anderson, D PCI System Architecture, a -a ed Reading, MA: Addison-Wesley, Shriver, B și Smith, B The Anatomy of a High-Performance Microprocessor: A Systems Perspective, Los Alamitos, CA: ІЕЕЕ Computer Society, Sima, D "Superscalar Instruction Issue", ІЕЕЕ Micro Magazine, vol , p - , sept /oct Sima, D , Fountain, T și Kacsuk, P Advanced Computer Architectures: A Design Space Approach, Reading, MA: Addison-Wesley, Slater, R Portraits in Silicon, Cambridge, MA: MIT Press, Snir, M , Otto, SW, Huss-Lederman, S , Walker, DW și Dongarra, J MPI: The Complete Reference Manual, Cambridge, MA: MIT Press, Sohi, GS, and Roth, A "Speculative Multithreaded Processors", ІЕЕЕ Computer Magazine, voi , p - , aprilie Solari, E și Congdon, B PCI Express Design & System Architecture, Research Tech, Inc , Solari, E și Willse, G PCI și PCI-X Hardware și Software, a -a ed , San Diego, CA: Annabooks, Stallings, W Computer Organization and Architecture, ed a VI-a Upper Saddle River, NJ: Prentice Hali, Stenstrom, P , Hagersten, E , Lilja, DJ, Martonosi, M și Venugopal, M "Trends in Shared Memory Multiprocessing", ІЕЕЕ Computer Magazine, voi , p - , decembrie Stets, R , Dwarkadas, S , Hardavellas, N , Hunt, G , Kontothanassis, L , Partha-sarathy, S și Scott, M "CASHMERE- L: Software Coherent Shared Memory on Clustered Rețele de scriere la distanță", Proc al -lea Symp despre principiile sistemelor de operare, ACM, pp - , Suh, T , Lee, H -HS, Blough, DM "Integrating Cache Coherence Protocols for Heterogeneous Multiprocessor Systems, Part ", ІЕЕЕ Micro Magazine, voi , p - , iulie Алфавитный список литературы Summers, С К ADSL: Standarde, implementare și arhitectură, Воса Raton, FL: CRC Press, Sunderram, V, В "РѴМ: A Framework for Parallel Distributed Computing", Concurență: practică și experiență, voi , p - , decembrie Swan, RJ, Fuller, SH și Siewiorek, DP "Cm* -A Modular Multipro-cessor", Proc NCC, p - , Tan, WM Developing USB PC Peripherals, San Diego, CA: Annabooks, Tanenbaum, AS "Computer Networks", Upper Saddle River, NJ: Prentice Hali, Tanenbaum, AS "Implicații ale programării structurate pentru arhitectura mașinilor", Comun al ACM, voi , p - , martie Tanenbaum, AS Sisteme de operare: proiectare și implementare Upper Saddle River, NJ: Prentice Hali, Tanenbaum, AS și Woodhull, A, W Sisteme de operare: proiectare și implementare Upper Saddle River, NJ: Prentice Hali, Thompson, K "UNIX Implementation", Beli Syst Teh J , voi , p - , iulie-aug Treleaven, P "Control-Driven, Data-Driven, and Demand-Driven Computer Architecture", Parallel Computing, voi , Tremblay, M și O'connor,} M "UltraSPARC I: A Four-Issue Processor Support Multimedia", ІЕЕЕ Micro Magazine, voi , p - , aprilie Triebel, WA Procesorul , și Pentium, Upper Saddle River, NJ: Prentice Hali, Tuck, N și Tullsen, DM "Observații inițiale ale procesorului Pentium multi-threading simultan", Proc a -a Conf Internațională pe Paralel Arch și Tehnici de compilare, ІЕЕЕ, pp - , Unger, SH "A Computer Oriented Toward Spațial Problems", Proc IRE, voi , p - , Vahalia, U UNIX Internals, Upper Saddle River, NJ: Prentice Hali, Vahid, F "The Softening of Hardware", ІЕЕЕ Computer Magazine, voi , p - , aprilie Van Steen, M , Homburg, PC și Tanenbaum, AS "The Architectural Design of Globe: A Wide-Area Distributed System", ІЕЕЕ Concurrency, voi , p - , ian -martie Vetter, P , Goderis, D , Verpooten, L , and Granger, A "Systems Aspects of APON/ VDSL Deployment", ІЕЕЕ Commun Magazine, voi , p - , mai Weaver, DL și Germond, T The SPARC Architecture Manual, Version , Englewood Cliffs, NJ: Prentice Hali, Weiser, M "The Computer for the st Century", ІЕЕЕ Pervasive Computing, voi , p - , ian -martie ; publicat inițial în Scientific American, septembrie Wilkes, MV "Computers Then and Now", J ACM, voi , p - , ianuarie Capitolul Bibliografie Wilkes, M V "The Best Way to Design an Automatic Calculating Machine", Proc Manchester Univ Computer Inaugural Conf , Wilson, J "Challenges and Trends in Processor Design", IEEE Computer Magazine, voi , pp - , ian Wilson, P "Floating-Point Survival Kit", Byte, voi , pp - , martie Wolf, W "The Future of Multiprocessor Systems-on-Chips", Proc -a An Conf despre automatizarea designului, IEEE, pp - , anexa a numere binare Aritmetica folosită în calculatoare este diferită de aritmetica cu care suntem obișnuiți cu toții În primul rând, computerele operează cu numere a căror precizie este finită și fixă În al doilea rând, majoritatea computerelor nu folosesc zecimalul, ci sistemul de numere binar Aceste două subiecte sunt tratate în această anexă Numerele finale de precizie Când oamenii fac aritmetică, nu le pasă câte zecimale ocupă un anumit număr Fizicienii, de exemplu, pot calcula că există electroni IO în univers și nu le pasă că înregistrarea completă a acestui număr necesită de zecimale Problema lipsei de hârtie pentru a nota numărul nu se pune niciodată Cu computerele, lucrurile stau altfel Majoritatea computerelor au o cantitate fixă de memorie disponibilă pentru stocarea numerelor, în funcție de momentul în care computerul a fost lansat Cu efort, programatorul va putea reprezenta numere de două, trei sau mai multe ori mai mari decât dimensiunea memoriei, dar acest lucru nu schimbă natura problemei Memoria computerului este limitată, așa că ne putem ocupa doar de numere care pot fi reprezentate într-un număr fix de cifre Astfel de numere sunt numite numere de precizie finită Luați în considerare o serie de numere întregi pozitive care pot fi scrise ca trei zecimale fără virgulă și fără semn Această serie include exact de numere: OOO, , , , , Cu această restricție, este imposibil de exprimat anumite tipuri de numere Aceasta include: + numere mai mari de ; + numere negative; + fracții; + numere iraționale; + numere complexe Una dintre proprietățile mulțimii tuturor numerelor întregi este că este închisă în ceea ce privește operațiile de adunare, scădere și înmulțire Cu alte cuvinte, pentru fiecare pereche de numere întregi i și j, numerele i + j, i - j și ixj sunt de asemenea numere întregi Seria de numere întregi nu este închisă sub diviziune deoarece există valori i și y pentru care i/j nu este exprimat ca număr întreg (de exemplu, / sau / ) Numerele de precizie finită nu sunt închise în toate cele patru operații Iată exemple de operații pe numere zecimale din trei cifre: Anexa A Numere binare + Număr prea mare: + = + număr negativ: - = - + Număr prea mare: x = + Nu este un întreg: / = , Abaterile pot fi împărțite în două clase: operații al căror rezultat este mai mare decât cel mai mare număr al seriei (eroare de depășire) sau mai mic decât cel mai mic număr al seriei (eroare de depășire) și operațiuni al căror rezultat nu este prea mic sau prea mare, dar pur și simplu nu este un rând de membru Dintre cele patru exemple date, primele trei aparțin clasei întâi, iar al patrulea clasei a doua Întrucât memoria calculatorului este limitată și computerul trebuie să efectueze operații aritmetice pe numere de precizie finită, din punctul de vedere al matematicii clasice, rezultatele anumitor calcule se dovedesc a fi incorecte Eroarea în acest caz este doar o consecință a naturii finite a reprezentării numerelor într-un dispozitiv de calcul Unele computere au suport hardware încorporat pentru detectarea erorilor de depășire Algebra numerelor de precizie finită este diferită de algebra obișnuită Ca exemplu, luați în considerare legea asociației a + (b - c) == (a + b) - c Calculăm ambele părți ale expresiei pentru a = , b = și c = În partea stângă, calculăm mai întâi valoarea (h - c) Este egal cu Apoi adunăm acest număr la a și obținem Pentru a calcula partea dreaptă, mai întâi calculăm (a + b) Numerele întregi pe biți vor depăși Rezultatul va depinde de computer, dar nu va fi egal cu Scăderea a din altceva decât nu va avea ca rezultat Legea asocierii este invalidă Ordinea în care sunt efectuate operațiile este importantă Un alt exemplu este legea distributivă: ax(b- c) = ax b- ax a Să calculăm ambele părți ale expresiei pentru a = , d = us = În partea stângă, x = În partea dreaptă, nu se obține , deoarece rezultatul operației axh depășește seria Pe baza acestor exemple, s-ar putea concluziona că computerele sunt complet nepotrivite pentru efectuarea aritmeticii Concluzia este, desigur, greșită, dar aceste exemple arată clar cât de important este să înțelegem cum funcționează un computer și să fii conștient de limitările acestuia Sisteme numerice poziționale Sisteme numerice poziționale Un număr zecimal obișnuit constă dintr-un șir de zecimale și uneori un punct zecimal (virgulă) Forma generală a înregistrării este prezentată în fig A Zece este ales ca bază de exponențiere (și se numește baza sistemului numeric) deoarece folosim cifre În computere, este mai convenabil să se ocupe de alte baze ale sistemului numeric Cele mai importante sunt , și Sistemele numerice corespunzătoare sunt numite binar, octal și hexazecimal Sute Zeci Unități Zeci Sutimi Mii dn d di d d- d d- dk Număr = Z djxlO i= -k Orez A Forma generală a numărului zecimal Sistemul de numere de bază k necesită k caractere diferite pentru a reprezenta cifrele de la la k - Numerele zecimale sunt construite din cifre zecimale: Numerele binare, pe de altă parte, sunt construite din doar două cifre binare: Numerele octale sunt formate din opt cifre: Numerele hexazecimale necesită cifre Aceasta înseamnă că avem nevoie de personaje noi Pentru a indica numerele care urmează după nouă, se obișnuiește să se folosească litere mari latine de la A la F Astfel, numerele hexazecimale sunt construite din următoarele numere: A B C D E F O cifră binară (adică sau ) este denumită în mod obișnuit bit Pe fig A Numărul zecimal este reprezentat în sisteme de notație binar, octal și hexazecimal Numărul B este evident hexazecimal, deoarece caracterul B apare doar în numere hexazecimale Iar numărul poate fi scris în oricare dintre cele patru sisteme numerice Pentru a evita ambiguitatea, trebuie să folosiți un index pentru a indica baza sistemului numeric În tabel A O serie de numere întregi nenegative este reprezentată în fiecare dintre cele patru sisteme numerice Anexa A Numere binare (r) X despre I x + x + x (r) + x + x (r) + x + x + x + x + x + x ° m * + + + + + + + + + + f § | § x + x + x + x ° f § ș + + + O O CD § I § X + X + X + X ° la Ș + + + D FO L L L Î x + x + x ° q Ș + + si X b f Orez A Numărul în sisteme de numere binar, octal și hexazecimal Tabelul A Numerele zecimale și echivalentele lor binare, octale și hexazecimale Decimal Binar Octal Hexazecimal A V C D E F Conversia numerelor dintr-un sistem numeric în altul Decimal Binar Octal Hexazecimal E ZS A SE RĂU Conversia numerelor dintr-un sistem numeric în altul Conversia numerelor din octal în hexazecimal sau binar și înapoi este ușoară Pentru a converti un număr binar în octal, trebuie să-l împarți în grupuri de trei biți, cei trei biți imediat din stânga punctului binar formând un grup, următorii trei biți din stânga acelui grup formând al doilea grup și așa mai departe Fiecare grup de trei biți poate fi convertit într-o cifră octală cu o valoare de la la (vezi primele rânduri din Tabelul A ) Pentru a completa grupul de până la trei biți, trebuie să adăugați unul sau două zerouri în față Convertirea de la octal la binar este, de asemenea, banală Fiecare cifră octală este pur și simplu înlocuită cu un număr echivalent din cifre Conversia de la hexazecimal la binar este în esență aceeași cu conversia de la octal la binar, doar fiecare cifră hexazecimală corespunde unui grup de patru biți, nu trei Pe fig A oferă exemple de transformări de la un sistem la altul Conversia zecimală în binară se poate face în două moduri diferite Prima metodă decurge direct din definiția numerelor binare Din acel număr se scade cea mai mare putere cu două mai puțin decât numărul Aceeași operație se efectuează cu diferența rezultată Când un număr este extins în puteri de doi, numărul binar poate fi obținut după cum urmează Unitățile sunt plasate în acele poziții care corespund puterilor primite de doi și zerouri - în toate celelalte poziții A doua modalitate este de a împărți numărul la Coeficientul este scris direct sub numărul inițial, iar restul ( sau ) este scris lângă cât Același lucru se face și cu coeficientul rezultat Procesul se repetă până când rămâne Rezultatul ar trebui să fie două coloane de numere - private și oc Anexa A Numere binare Tatkov Un număr binar poate fi citit din coloana de reziduuri de jos în sus Pe fig A arată cum are loc conversia de la zecimal la binar Exemplul Număr hexazecimal ÎN număr binar număr octal Exemplul Număr hexazecimal ÎN ÎN CU A număr binar număr octal Orez A Z Exemple de conversie din octal în binar și din hexazecimal în binar Privat Rest unsprezece Orez A Convertirea numărului zecimal în binar prin împărțire secvențială (de sus în jos) De exemplu, împărțit la dă , iar restul este Restul este scris în rândul de mai jos Numere binare negative Numerele binare pot fi convertite în zecimale în două moduri Prima modalitate este să însumăm puterile a doi care corespund celor biți din numărul binar De exemplu: = + + = + + = În a doua metodă, numărul binar este scris vertical, un bit pe linie, cu bitul din stânga în jos Rândul de jos este rândul , apoi vine rândul și așa mai departe Numărul zecimal este construit pe această coloană Să notăm mai întâi șirul Elementul șir n este format din de două ori elementul șir n - plus șirul de biți n ( sau ) Elementul primit în rândul de sus va fi răspunsul Metoda este ilustrată în fig A nevoie de aici Orez A Conversia numărului binar în zecimal prin dublarea succesivă de jos în sus În fiecare linie următoare, valoarea liniei anterioare este dublată și se adaugă bitul corespunzător De exemplu, este înmulțit cu și se adaugă bitul șirului corespunzător (în acest caz ) Rezultatul este Conversia de la zecimal la octal sau hexazecimal se poate face fie prin conversia mai întâi în binar și apoi în sistemul dorit, fie prin scăderea puterilor de sau Numerele binare negative De-a lungul istoriei computerelor digitale, sisteme diferite au fost folosite pentru a reprezenta numerele negative Primul dintre acestea se numește sistem semnat Într-un astfel de sistem, bitul din stânga este bitul semn Anexa A Numere binare ( este plus, este minus), iar biții rămași arată valoarea absolută a numărului În cel de-al doilea sistem, care se numește complement, există și un bit de semn ( - plus, - minus) Pentru a face un număr negativ, trebuie să înlocuiți fiecare cu un zero și fiecare zero cu unul Acest lucru este valabil și pentru bitul de semn Sistemul complementului unu este deja învechit Al treilea sistem, complementul în doi, conține bitul de semn ( pentru plus, pentru minus) Negarea unui număr are loc în două etape În primul rând, fiecare este schimbat la zero și fiecare zero la unu (ca în sistemul complementului unu) Apoi se adaugă unul la rezultat Adunarea binară funcționează exact ca și adunarea zecimală, cu excepția faptului că transferul este efectuat dacă suma este mai mare decât și nu mai mare de De exemplu, luați în considerare conversia numărului în forma complementului a doi: + Numărul + : + Numărul - în sistemul complementului unu: + Numărul - în sistemul complementului a doi: Dacă un transport trebuie făcut din partea din stânga, acesta este pur și simplu aruncat În al patrulea sistem, care pentru numerele de m biți se numește sistem cu o deplasare de m , numărul este reprezentat ca suma acestui număr și I De exemplu, pentru un număr de biți (m = ), acesta este un sistem compensat cu , în care numărul este stocat ca sumă a numărului original și Prin urmare, - devine - + = , iar acest număr (- ) este reprezentat de numărul binar de biți ( ) Numerele de la - la + sunt exprimate ca numere de la la (toate putând fi scrise ca un număr pozitiv de biți) Rețineți că acest sistem corespunde sistemului de complement a doi cu bitul de semn inversat În tabel A oferă exemple de numere negative în toate cele patru sisteme În sistemele cu semn și complement, există două reprezentări ale lui zero: + și - Această situație nu este de dorit Într-un sistem de complement a doi, nu există o astfel de problemă, deoarece aici plus zero este întotdeauna plus zero Dar în acest sistem există o altă caracteristică Un set de biți format dintr-un urmat de toate -urile este propriul său complement Ca rezultat, seria de numere pozitive și negative nu este simetrică - există un număr negativ fără unul pozitiv corespunzător Luăm în considerare aceste probleme deoarece dorim să avem un sistem de codare în care: + există o singură reprezentare a lui zero; + numărul numerelor pozitive este egal cu numărul celor negative Aritmetică binară Tabelul A- Numere negative de biți în patru sisteme diferite N zecimal N binar -N cu semn -N complement la unu -N complement la doi -N compensat cu Nu există Nu există Nu există Faptul este că orice serie de numere cu un număr egal de numere pozitive și negative și doar un zero conține un număr impar de membri, în timp ce m biți implică un număr par de combinații de biți În orice caz, fie o combinație de biți va fi redundantă, fie o combinație va lipsi Un model de biți suplimentar poate fi folosit pentru a reprezenta - , pentru un număr negativ mare sau pentru orice altceva, dar va crea întotdeauna inconveniente Aritmetică binară Figura A ilustrează adunarea binară Adunarea a două numere binare începe cu bitul din dreapta Biții corespunzători din primul și al doilea termen sunt însumați Purtarea se efectuează cu o poziție spre stânga, ca în aritmetica zecimală În aritmetica complementului cuiva, bitul de transport după adăugarea biților din stânga Anexa A Numere binare adăugat la partea din dreapta Acest proces se numește round-robin În aritmetica complementului a doi, transportul rezultat din adăugarea biților din stânga este pur și simplu aruncat Exemple de operații aritmetice asupra numerelor binare sunt prezentate în fig A Primul termen Al doilea termen + * + * Suma Transfer Orez A Tabel de adunare pentru numere binare zecimale Plus Plus numere de până la unu până la doi + (- ) + Transfer aruncat Orez A Adăugarea în Complementul Unu și Sistemul Complement a Doi Dacă primul și al doilea termen au semne opuse, nu va apărea nicio eroare de depășire Dacă au același semn și rezultatul este semnul opus, atunci a apărut o eroare de depășire și rezultatul este incorect Atât în aritmetica complementului unu cât și în complementul a doi, are loc o depășire dacă și numai dacă o transferare în bitul de semn diferă de o depășire a bitului de semn În majoritatea computerelor, transferul de la bitul de semn este păstrat, dar transportul la bitul de semn nu este vizibil din rezultat, așa că de obicei este introdus un bit de overflow special Întrebări și sarcini Convertiți următoarele numere în binar: , , Convertiți numărul binar în zecimal, octal și hexazecimal Care dintre șirurile de caractere BED, CAB, DEAD, DECADE, ACCEDED, BAG, DAD sunt numere hexazecimale? Exprimați numărul zecimal în sisteme numerice cu baze de la la Întrebări și sarcini Câte numere întregi pozitive diferite pot fi exprimate în k cifre folosind numere cu baza r? Majoritatea oamenilor pot număra cu degetele până la Cu toate acestea, informaticienii sunt capabili de mai mult Imaginează-ți că fiecărui deget îi corespunde o cifră binară Fie ca degetul întins să însemne și degetul îndoit Cât de departe putem număra folosind degetele ambelor mâini? Dar degetele de la mâini și de la picioare? Imaginați-vă că degetul mare din stânga este bitul semn pentru numerele complementului a doi Câte numere pot fi exprimate în acest fel? Efectuați următoarele calcule pe numerele complement pe biți: + + - - Efectuați aceleași calcule pe sistemul complementului unu Următoarele sunt sarcini pentru adăugarea numerelor binare de biți într-un sistem de complement a doi Pentru fiecare sumă, setați: ) Dacă bitul semn al rezultatului este egal cu unu ) Sunt cei mai puțin semnificativi trei biți zero ) Dacă a existat un preaplin + + + + + Numerele zecimale semnate formate din n cifre pot fi reprezentate în n + cifre fără semn Numerele pozitive au un în cifra din stânga Numerele negative se obțin prin scăderea fiecărei cifre din De exemplu, numărul negativ pentru este Astfel de numere se numesc numere de complement nouă Ele sunt asemănătoare numerelor binare cu complementul unu Exprimați următoarele numere ca numere complementare din cifre: , - , , - , - , Formulați o regulă pentru adăugarea numerelor de complement nouă și apoi efectuați următoarele calcule: + + + + Anexa A Numere binare Sistemul complementului la zece este similar cu sistemul complementului la doi Un număr negativ în sistemul de complement zece se obține prin adăugarea unui număr la numărul de complement nouă corespunzător, ignorând purtarea Care este regula pentru adunare în sistemul complementului zece? Realizați tabele de înmulțire pentru numerele sistemului numeric cu baza Înmulțiți numerele binare și UN Scrieți un program care ia un număr zecimal cu semn ca șir de caractere ASCII ca intrare și care scoate reprezentarea numărului în binar octal, hexazecimal și complement a doi Scrieți un program care ia ca intrare șiruri de de zerouri și uni ASCII Fiecare linie reprezintă un număr binar de de biți pe un sistem de complement a doi La ieșire, programul ar trebui să scoată suma lor ca un șir de de caractere ASCII de zero și unu Anexa B Numere în virgulă mobilă Gama de numere utilizate în diferite calcule este foarte mare De exemplu, calculele astronomice pot include masa unui electron ( x IO' grame) și masa Soarelui ( x IO grame) Intervalul de numere aici depășește IO Aceste numere pot fi reprezentate astfel: , Toate calculele trebuie să stocheze de cifre la stânga punctului zecimal și de cifre la dreapta acesteia Acest lucru va da de cifre semnificative în rezultate Pe un computer binar, aritmetica cu precizie multiplicată poate fi utilizată pentru a oferi suficientă semnificație Cu toate acestea, nu putem determina masa Soarelui nici măcar la cinci cifre semnificative, cu atât mai puțin În realitate, este aproape imposibil să facem măsurători cu o precizie de de cifre Ar fi posibil să stocați toate rezultatele intermediare cu o precizie de de biți semnificativi și să renunțați la sau de biți înainte de afișarea rezultatelor finale, dar procesorul și memoria ar petrece prea mult timp pentru asta Avem nevoie de un sistem de reprezentare a numerelor în care intervalul de numere exprimat este independent de numărul de cifre semnificative În această anexă, vom descrie un astfel de sistem Se bazează pe reprezentarea exponențială a numerelor, care este folosită în fizică, chimie și inginerie mecanică Principii în virgulă mobilă Numerele pot fi exprimate în următoarea formă exponențială convențională: n \u d / x e, unde f se numește fracție sau mantisă, iar e (fie că este un întreg pozitiv sau negativ) se numește exponent Versiunea computerizată a acestei reprezentări se numește reprezentare în virgulă mobilă Iată exemple de numere într-o astfel de notație: , = , x = , x ° , = , x IO' = , x IO' = , x IO = , x IO Intervalul este determinat de numărul de cifre din exponent, iar precizia este determinată de numărul de cifre din mantise Există mai multe moduri de a prezenta Anexa B Numere în virgulă mobilă din acest sau acel număr, astfel încât o formă este aleasă ca standard Pentru a explora proprietățile acestei reprezentări, luați în considerare o reprezentare a lui R cu o mantise cu trei cifre semnate în intervalul , SYS I PUSH CX I BP: : CC ■ > P ■ - => ADD SP, I PUSH hw I SI : IP: : c:PC SUB CX AX I PUSH STDOUT ! Dl: start + c PUSH CX I PUSH SCRIT E SYS I ADD SP, I SUB CX AX hw PUSH CX ■ > Bună lume\n PUSH-EXIT! hw + = : c c f f Hello World SYS SECT DATE hw: ASCII "Hello World" ' de: BYTE I A b Orez ÎN Codul sursă al programului în limbaj de asamblare (a); fereastra de urmărire cu informații despre progresul programului (b) Acum să aruncăm o privire rapidă la conținutul celor șapte ferestre copil prezentate în Fig B , b În rândul de sus sunt trei ferestre - două mari și una mai mică Fereastra din stânga sus arată conținutul procesorului, și anume, valorile curente ale segmentului (CS, DS, SS și ES), aritmetice (AH, AL, AX) și ale altor registre În fereastra din mijloc din rândul de sus, este indicat conținutul stivei - zona de memorie destinată stocării valorilor temporare Fereastra din dreapta sus afișează un fragment al programului în limbaj de asamblare; săgeata indică comanda care este în curs de executare Pe măsură ce programul rulează, această săgeată se deplasează în mod natural de la o instrucțiune la alta Interpretul poate lucra într-un astfel de mod în care o singură apăsare a tastei Enter are ca rezultat executarea unei comenzi și actualizarea corespunzătoare a tuturor ferestrelor Astfel, un program scris în limbaj de asamblare poate fi executat într-un mediu de simulator la o viteză care vă permite să înțelegeți ce se întâmplă Procesor Fereastra de sub fereastra din stânga sus definește conținutul stivei de apeluri subrutine, care este goală în acest caz Mai jos sunt comenzile proprii ale trasorului Fereastra din dreapta acestor două ferestre este pentru mesaje de intrare, ieșire și de eroare Fereastra cea mai de jos afișează conținutul părții din memorie Despre toate aceste ferestre vom vorbi în detaliu mai târziu, dar deocamdată este important să ne facem o idee generală despre ce informații le permite utilizatorului să vadă trasorul: codul sursă al programului, conținutul registrelor mașinii, informații despre starea programului executabil Pe măsură ce fiecare comandă ulterioară este rulată, conținutul ferestrei interpretorului este actualizat, astfel încât programatorul să poată înțelege procesul cât de detaliat dorește Procesor Orice procesor, inclusiv , are propria sa stare internă, care se referă la una sau alta informație critică Pentru a stoca și procesa aceste informații, procesorul are un set special de registre Cel mai important dintre acestea este registrul PC (Program Counter) Indică locația de memorie (adresa) care stochează următoarea instrucțiune în ordinea execuției O altă denumire pentru acest registru este IP (Instruction Pointer) Porțiunea din memoria principală care stochează următoarea instrucțiune în ordinea de execuție se numește segment de cod Capacitatea de memorie principală permisă suportată de procesorul este puțin peste MB, dar dimensiunea segmentului de cod este limitată la KB Începutul acestui segment într-o memorie de MB este definit în registrul CS (vezi Figura B ) Pentru a activa un nou segment de cod, este suficient să modificați valoarea registrului CS Pe lângă segmentul de cod, există un segment de date, care ocupă și KB și definește începutul datelor Pe fig B începutul datelor este determinat de registrul DS, al cărui conținut poate fi modificat dacă este necesar și, prin urmare, accesează datele care se află în afara segmentului curent Necesitatea registrelor CS și DS se datorează faptului că lățimea registrelor este de biți, ceea ce înseamnă că este imposibil să stocați adresele de de biți necesare pentru a accesa memoria de MB în ele De aceea au apărut segmentul de cod și segmentul de date Alte registre dețin date sau pointeri către date aflate în memoria principală Programele de asamblare accesează direct aceste registre Pe lângă registre, procesorul conține și alt hardware necesar funcționării, dar aceste componente sunt disponibile programatorului doar prin instrucțiuni Ciclul procesorului Munca procesorului (precum și a tuturor celorlalte computere) se reduce la executarea comenzilor într-o anumită secvență Procesul de executare a unei singure comenzi este împărțit în mai multe etape: Anexa B Programare în limbaj de asamblare Cu ajutorul registrului PC, comanda este selectată din segmentul de cod al memoriei Se adaugă unul la valoarea curentă a contorului programului Comanda selectată este decodificată Toate datele necesare executării comenzii sunt selectate din registrele de memorie și (sau) procesor Comanda este executată Rezultatele executării comenzii sunt stocate în memorie și (sau) registre Începe procesul de executare a următoarei comenzi (treceți la pasul ) Rularea unei comenzi este ca și cum rulați un program foarte mic În plus, unele mașini au o mică parte de software (numit firmware) pentru executarea instrucțiunilor Firmware-ul este discutat în detaliu în Capitolul Din punctul de vedere al unui programator asamblator, procesorul are registre Aceste registre îndeplinesc funcția de memorie scratch, cu care lucrează numeroase instrucțiuni; rezultatele stocate în ele se modifică foarte frecvent Toate aceste registre sunt prezentate în Fig LA Asemănarea dintre această figură și fereastra trasoare prezentată în fig ÎN AX Registre de uz general CS Registre de segment Segmentul codului AH AL IN HV BL DS Segment de date CX CH CL SS Segment de stivă DX DH DL ES Segment suplimentar Indicatori și indici Coduri de condiție SP Indicator de stivă SF ss O DI T SZ A R S steaguri de stare I Indicator de bază BP Indicator de instrucțiuni Indicele sursei SI - ІР Contor de comenzi PC^ DI Receiver index i C I C I Orez LA registre de procesor Procesor Registrele procesorului au o lățime de biți Nu există o singură pereche de registre complet identice din punct de vedere funcțional În același timp, unele dintre ele sunt similare în unele dintre caracteristicile lor și, prin urmare, sunt împărțite în mai multe grupuri, ceea ce este prezentat și în Fig LA Vom discuta acum despre aceste grupuri Registre de uz general Registrele AX, BX, CX și DX fac parte din grupul de registre de uz general Primul registru din acest grup, AX, se numește registru sumator Este folosit pentru a acumula rezultatele calculelor și adesea acționează ca un receptor al rezultatelor executării diferitelor comenzi Deși fiecare registru este capabil să îndeplinească multe sarcini diferite, rezultatele unor instrucțiuni (în special, instrucțiuni de multiplicare) sunt trimise implicit registrului AX Al doilea registru al acestui grup, BX, se numește registru de bază Prin programare, este în multe privințe similar cu registrul AX, dar există o diferență semnificativă Puteți scrie o adresă de memorie în BX și apoi executați o instrucțiune al cărei operand se află la acea adresă de memorie Cu alte cuvinte, BX poate conține un pointer către o zonă de memorie, dar AX nu Pentru a ilustra această afirmație, să comparăm două comenzi Prima echipa: MOV AX,BX Această comandă copiază conținutul BX în AX A doua comanda: MOV AX,(BX) Această instrucțiune copiază în AX conținutul cuvântului de memorie a cărui adresă este conținută în BX În primul exemplu, operandul sursă este conținut în registrul BX; al doilea exemplu conține un pointer către operandul sursă În ambele exemple, după cum puteți vedea, ambii operanzi sunt specificați pentru instrucțiunea MOV: sursă (sursă) și țintă (destinație) În acest caz, operandul țintă este specificat înaintea sursei Următorul registru de uz general, CX, se numește registru de contor Printre altele, este folosit pentru a stoca valorile contorului în timpul buclelor În timpul procesării instrucțiunii LOOP, valoarea din acest registru este automat decrementată cu unu De regulă, ciclurile se termină în momentul în care valoarea din registrul CX ajunge la zero Al patrulea registru din grupul de registre de uz general este registrul de date (DX) Împreună cu registrul AX, este utilizat la executarea comenzilor cu cuvinte cu lungime dublă ( de biți) În acest caz, cei biți superiori sunt stocați în DX, iar cei biți inferiori sunt stocați în AX Aici trebuie să facem o rezervare care de obicei numerele întregi de de biți sunt numite lungi Termenul dublu este folosit mai frecvent pentru valorile în virgulă mobilă pe de biți, dar uneori este folosit și pentru a se referi la valori întregi pe de biți În contextul nostru, nu va exista confuzie, deoarece nu vom discuta despre numerele în virgulă mobilă Fiecare registru de uz general poate fi considerat fie un singur registru de biți, fie o pereche de registre de biți Astfel, procesorul are opt registre de biți care sunt folosite Anexa B Programare în limbaj de asamblare la executarea comenzilor cu octeți și caractere Registrele incluse în toate celelalte grupuri nu pot fi împărțite în două părți de biți Unele comenzi folosesc întregul registru (de exemplu, AX), altele - doar o parte a acestuia (de exemplu, AL sau AH) Ca regulă generală, acele instrucțiuni care efectuează operații aritmetice folosesc de obicei registre întregi de biți, în timp ce cele care se ocupă de caractere se mulțumesc cel mai adesea cu registre de biți Rețineți că AL și AH nu sunt altceva decât numele celor două jumătăți ale registrului AX Când un nou număr de biți este scris în AX, jumătățile sale inferioare și superioare sunt plasate în AL și, respectiv, AH Interacțiunea registrelor AX, AH și AL poate fi ilustrată prin următoarea comandă: MOV AX Încarcă în registrul AX valoarea zecimală După finalizarea acestei instrucțiuni, valoarea se află în registrul octet AH, iar valoarea este în registrul octet AL Fie ca această comandă să fie urmată de alta: ADDB AH AL În acest caz, valoarea AL (adică ) este adăugată la valoarea registrului de octeți AH, iar valoarea rezultată devine Ca urmare a acestei operații, o nouă valoare este scrisă în registrul AX - , echivalent cu valoarea în sistemul numeric binar sau cu valoarea x x în sistemul numeric hexazecimal De regulă, două registre de octeți sunt interschimbabile Singura excepție este instrucțiunea MULB, timp în care unul dintre operanzi este întotdeauna stocat în registrul AL, care, împreună cu AH, este receptorul în acest caz La executarea instrucțiunii DIVB, dividendul este stocat în perechea de registre AH și AL Octetul inferior al registrului de contor CL este utilizat pentru a stoca numărul de cicluri la executarea instrucțiunilor de schimbare normală și ciclică Al doilea exemplu din secțiunea Exemple (acest exemplu este din programul GenReg s) arată unele proprietăți ale registrelor generale Registre pointer Al doilea grup de registre conține registre pointer și registre index Cel mai important registru din acest grup este stack pointer (SP) Stivele joacă un rol important în majoritatea limbajelor de programare Stiva este un segment de memorie care stochează anumite date asociate cu contextul programului executabil În mod obișnuit, atunci când o procedură este apelată, o porțiune a stivei este rezervată pentru a-și stoca variabilele locale, adresa la care se va întoarce când procedura se termină și o serie de alte date de control Adesea stiva asociată cu execuția unei proceduri se numește cadru stivă Când o procedură apelată anterior apelează o altă procedură, este alocat un cadru de stivă suplimentar, plasat de obicei imediat sub primul În consecință, atunci când toate procedurile ulterioare sunt apelate, noi cadre de stivă sunt alocate pentru fiecare dintre ele în ordine descrescătoare Nu întotdeauna, dar în cele mai multe cazuri, stivele cresc în jos Procesor supa de varza - de la adrese mari la cele mai mici Cu toate acestea, partea de sus a stivei se numește cea mai mică adresă Pe lângă variabilele locale, stivele stochează rezultatele temporare ale execuției Procesorul are o instrucțiune PUSH care împinge un cuvânt de biți în partea de sus a stivei Pentru a face acest lucru, mai întâi decrește valoarea registrului SP cu și apoi își stochează operandul la adresa către care indică acest registru după actualizare Instrucțiunea POP elimină cuvintele de biți din partea de sus a stivei în același mod - selectează valoarea situată în acest vârf și adaugă un doi la conținutul registrului SP Registrul SP, care indică partea de sus a stivei, poate fi schimbat cu comenzile PUSH, POP și CALL; în același timp, PUSH și CALL îi scad valoarea, iar POP, dimpotrivă, o crește Următorul registru din acest grup se numește indicatorul de bază (BP) De obicei, o adresă de pe stivă este scrisă în ea Spre deosebire de SP, care indică întotdeauna spre vârful stivei, BP poate indica oriunde pe stivă Cea mai obișnuită utilizare a registrului VR este de a indica începutul cadrului stivei procedurii curente; aceasta simplifică sarcina de a găsi variabilele locale Astfel, BP indică adesea spre partea de jos a cadrului stivei curent (cu alte cuvinte, către cuvântul din cadrul stivei cu cea mai mică valoare numerică), iar SP spre partea de sus (cuvântul din cadrul stivei cu cea mai mare valoare numerică ) Prin urmare, limitele cadrului actual al stivei sunt determinate de valorile registrelor pointerului BP și SP Acest grup are două registre de index: SI (Indice sursă) și DI (Index de destinație) În combinație cu VR, aceste registre sunt adesea folosite pentru a adresa date de pe stivă și, în combinație cu BX, pentru a calcula adresele de memorie Vom vorbi mai multe despre utilizarea acestor registre în secțiunea despre modurile de adresare Unul dintre cele mai importante registre, constituind un grup autosuficient, se numește indicatorul de instrucție; acest termen a fost introdus de Intel, în cazul general, un astfel de registru se numește program counter (PC) Instrucțiunile se referă la acesta pentru adresele segmentelor de cod din memorie Ciclul de execuție a instrucțiunii de către procesor începe cu preluarea instrucțiunii indicate de registrul PC Înainte de a executa comenzile ulterioare ale ciclului, se adaugă una la valoarea acestui registru Astfel, contorul de programe indică întotdeauna prima instrucțiune care urmează celei curente Registrul de pavilion, sau registrul de cod de condiție, este în esență un întreg set de registre, câte un bit: + Z - rezultat zero; + S - rezultat negativ (bit de semn); + V - rezultatul a generat un overflow; + C - rezultatul a generat un transfer; + A - transport de serviciu (de la bit ); + P este paritatea rezultatului Ceilalți biți din acest registru controlează diferite aspecte ale funcționării procesorului În special, bitul I activează întreruperi, iar bitul T activează modul de urmărire, care este utilizat pentru depanarea programelor În cele din urmă, bitul D reglează direcția Anexa B Programare în limbaj de asamblare operații cu șiruri Nu toți cei biți ai registrului flag sunt utilizați; biții neutilizați au o valoare fixă de zero Patru registre sunt alocate grupului de registre de segmente După cum vă amintiți, stiva, datele și codurile de instrucțiuni sunt stocate în diferite zone ale memoriei principale Registrele de segmente grupează aceste zone de memorie, numite segmente Registrele de segment includ registrul de segment de cod (CS), registrul de segment de date (DS), registrul de segment de stivă (SS) și registrul de segment extins (ES) De cele mai multe ori, valorile lor rămân neschimbate De fapt, segmentul de date și segmentul de stivă aparțin aceleiași zone de memorie, dar datele sunt stocate în partea de jos a acestui segment comun, iar stiva se află în partea de sus Vom discuta despre segmente mai detaliat în subsecțiunea "Organizarea și segmentele memoriei" din secțiunea "Memorie și adresare" Memorie și adresare Memoria procesorului este organizată destul de neobișnuit, ceea ce se explică prin combinația de memorie de megaoctet și registre de biți Cert este că într-o memorie cu o capacitate de MB sunt necesari de biți pentru a reprezenta o adresă Prin urmare, nu este posibil să stocați un pointer către un element de memorie într-un singur registru de biți Pentru a rezolva problema, memoria este împărțită în segmente de KB fiecare, iar adresele din aceste segmente se încadrează în biți În continuare, ne vom uita la arhitectura memoriei mai detaliat Organizarea și segmentele memoriei Memoria procesorului , care constă dintr-o matrice de octeți adresabili de biți, este folosită pentru a stoca comenzi, date și stiva Pentru a separa zonele de memorie utilizate în scopuri diferite, procesorul introduce conceptul de segmente, care sunt blocuri de memorie separate unele de altele Un astfel de segment în este format din de octeți consecutivi Există patru segmente în total: cod, date, stivă și suplimentar Segmentul de cod conține comenzile care alcătuiesc programele Conținutul registrului PC este întotdeauna interpretat ca adresa unui segment de cod din memorie Valoarea zero a PC-ului nu indică adresa zero absolută din memorie, ci cea mai mică adresă din segmentul de cod dat Segmentul de date stochează date de program inițializate și neinițializate Dacă registrul BX conține un pointer, acesta trebuie să indice segmentul de date Segmentul de stivă conține variabile locale și rezultate intermediare împinse pe stivă Adresele specificate în registrele SP și BP se referă întotdeauna la segmentul de stivă Segmentul suplimentar este un registru de segment auxiliar care poate fi plasat oriunde în memorie, după cum este necesar Fiecare dintre aceste segmente corespunde unuia dintre registrele de segment de biți: CS, DS, SS sau ES Adresa de început a segmentului este un întreg fără semn de de biți format prin deplasarea registrului de segment cu biți Memorie și adresare că la stânga și plasând patru zerouri în cele patru poziții libere din dreapta Prin urmare, registrele de segment dintr-un spațiu de adrese de de biți sunt întotdeauna exprimate ca multipli de Registrul de segment indică baza segmentului Adresele de segment sunt formate prin conversia unei valori de biți din registrul de segment într-o adresă reală de de biți prin adăugarea a patru biți zero la sfârșitul valorii și efectuând o compensare În cele din urmă, adresa absolută din memorie este setată prin înmulțirea valorii din registrul de segment cu și adăugarea offset-ului De exemplu, dacă valoarea lui DS este și BX este , atunci BX indică adresa x + = Cu alte cuvinte, pe baza valorii lui din registrul DS, puteți obține binarul de de biți adresa Adăugând la valoarea inițială a segmentului offset de biți (zecimal ), obținem adresa de de biți (zecimală) De fiecare dată când se accesează memoria, unul dintre registrele de segment este folosit pentru a forma adresa reală a memoriei Dacă o instrucțiune conține o adresă imediată fără nicio indicație a unui registru, acea adresă este considerată a fi în segmentul de date, iar registrul DS este utilizat pentru a determina baza acestui segment Adresa fizică este determinată prin adăugarea rezultatului operației anterioare la adresa specificată în comandă Adresa fizică din memoria de cod a următoarei instrucțiuni este setată prin deplasarea conținutului registrului CS cu patru biți și adăugarea la valoarea contorului programului Cu alte cuvinte, adresa reală de de biți este mai întâi calculată din valoarea registrului CS de biți, apoi se adaugă noua valoare de biți a PC-ului; rezultatul este o adresă absolută de de biți în memorie Segmentul de stivă este format din cuvinte de octeți, ceea ce înseamnă că doar un număr par poate fi stocat în indicatorul de stivă (SP) Stiva se umple în ordine de la cea mai mare adresă la cea mai mică Astfel, instrucțiunea PUSH decrește indicatorul stivei cu și apoi stochează operandul la adresa de memorie calculată din valorile SS și SP Instrucțiunea POP preia valoarea primită după operația PUSH și incrementează valoarea SP cu Acele adrese din segmentul de stivă care sunt sub limita determinată de registrul SP sunt considerate libere Prin urmare, curățarea stivei se face doar prin creșterea SP În practică, valorile registrelor DS și SS sunt întotdeauna aceleași, așa că un pointer de biți este suficient pentru a accesa o variabilă din segmentul comun de date și stivă Dacă valorile registrelor DS și SS ar fi diferite, la fiecare pointer ar trebui adăugat un al -lea bit - singura modalitate de a face distincția între pointerii către segmentul de date și către segmentul stivă În general, crearea unui segment separat de stivă de către dezvoltatorii de cipuri cu greu poate fi considerată justificată Dacă adresele din cele patru registre de segmente sunt îndepărtate, segmentele sunt împărțite, dar având în vedere cantitatea limitată de memorie disponibilă, nu este necesară divizarea acestora Cantitatea de cod de program după compilare este necunoscută Prin urmare, este cel mai eficient să plasați granița inițială a segmentului de date și a segmentului de stivă prin primul multiplu de Anexa B Programare în limbaj de asamblare după ultima comandă Această decizie implică faptul că segmentul de cod și segmentul de date nu vor folosi în niciun caz aceeași adresă fizică Adresarea Pentru a executa marea majoritate a comenzilor, sunt necesare date care sunt preluate fie din memorie, fie din registre oferă mai multe moduri de adresare pentru denumirea acestor date Multe instrucțiuni conțin doi operanzi, care în acest caz sunt de obicei numiți sursă (sursă) și țintă (destinație) Să luăm copia și să adăugăm comenzi ca exemplu: MOV AX IN ADD CX Primii operanzi din aceste instrucțiuni sunt destinațiile, iar al doilea operanzi sunt sursele (Ordinea lor nu este fundamentală; ar putea la fel de bine să fie inversată ) Evident, în acest caz, destinația este valoarea din stânga, adică valoarea suprascrisă ar trebui să fie situată în acest loc Prin urmare, operanzii țintă, spre deosebire de cei sursă, nu pot fi constante În decizia de proiectare inițială din , unul dintre operanzi, dacă există doi dintre ei în instrucțiune, trebuie să fi fost un registru Această cerință trebuia să facă distincția între instrucțiunile de procesare de octeți și de text pe baza faptului că registrul adresat este un registru de octeți sau un registru de cuvinte În prima versiune a procesorului, această regulă a fost respectată cu o strictețe incredibilă Nici măcar nu a fost posibil să se împingă o constantă pe stivă, deoarece în acest caz, nu ar exista niciun registru în niciunul dintre cei doi operanzi ai instrucțiunii În versiunile ulterioare, restricțiile au fost relaxate, dar principiul în sine a avut un anumit impact asupra designului procesorului În unele cazuri, unul dintre cei doi operanzi nu este menționat De exemplu, în instrucțiunea MULB, doar registrul AX poate juca rolul receptorului Există, de asemenea, instrucțiuni cu un singur operand Această categorie include, dar nu se limitează la, comenzi de creștere, schimbare și resetare În aceste instrucțiuni, cerința de a utiliza un registru ca operand nu se aplică și puteți distinge între instrucțiuni de procesare a textului și octet numai prin codurile de operare (adică tipuri de instrucțiuni) Procesorul acceptă patru tipuri de date de bază: octet, cuvânt ( octeți), cuvânt lung ( octeți) și BCD, care împachetează cifre zecimale într-un cuvânt Ultimul tip nu este acceptat de interpret O adresă de memorie corespunde întotdeauna unui octet, dar în cazul unui cuvânt obișnuit sau lung, există și o referire implicită la locațiile de memorie imediat deasupra octetului specificat De exemplu, cuvântul de la adresa ocupă locațiile de memorie și Cuvântul lung de la adresa ocupă locațiile , , și Procesorul este invers Memorie și adresare ordinea octetilor (little endian); aceasta înseamnă că partea inferioară a cuvântului este stocată la adresa cea mai joasă Într-un segment de stivă, cuvintele trebuie plasate la adrese egale Combinația AX DX, în care AX conține un cuvânt de ordin mai mic, este singura opțiune posibilă pentru plasarea cuvintelor lungi în registrele procesorului În tabel B arată toate modurile de adresare furnizate în În continuare, le vom revizui pe scurt Registrele sunt listate în rândurile de sus ale tabelului Ele pot fi folosite ca surse sau chiuvete în aproape toate comenzile Există registre pentru cuvinte și același număr pentru octeți Tabelul B Moduri de adresare a operanzilor (simbolul # înseamnă valoare numerică sau etichetă) Modul de adresare Exemple de operanzi Adresare registru Registrul octet Înregistrare octeți AH, AL, BH, BL, CH, CL, DH, DL După caz pentru cuvinte, pentru cuvintele AX, BX, CX, DX, SP, BP, SI, DI Adresare segment de date Adresare directă Adresă după cod operațional (#) Înregistrare adresare indirectă Adresă în registru (SI), (DI), (BX) Înregistrați adresarea cu un offset Adresarea registrului index Adresa se formează prin adăugarea BX cu SI/DI (BX)(SI), (BX)(DI) Adresarea indexului registrului offset Adresarea segmentului stivă BX plus SI DI plus offset #(BX)(SI), #(BX)(DI) Indicator de bază Adresă de adresare indirectă în registru (BP) Decalaj indicator de bază Adresa este formată din valoarea BP și offset-ul #(BP) Adresarea indicatorului de bază cu index Adresa se formează prin adăugarea BP și SI/DI (BP)(SI), (BP)(DI) Offset indice BP plus SI/DI plus offset #(BP)(SI), #(BP)(DI) indicatorul de bază Adresarea directă a datelor Prin informații directe, partea # octet/cuvânt Adresare implicită a instrucțiunilor Push/Pop Instruction Adresa indirectă (SP) PUSH, POP, PUSHF, POPF Încărcați sau stocați steaguri Înregistrați-vă cu steaguri de stare LAHF, STC, CLC, CMC Continuare Anexa B Programare în limbaj de asamblare Tabelul B (continuare) Modul de adresare Exemple de operanzi Difuzați XLAT AL, BX XLAT Comenzi șir repetate (SI), (DI), (CX) MOVS, CMPS, SCAS Comenzi de intrare și ieșire AX, AL IN #, OUT # Conversie octet, cuvânt AL, AX, DX CBW, CWD Rândurile de sub titlul Adresare segment de date listează modurile de adresare care sunt relevante pentru segmentele de date Adresele de acest tip sunt întotdeauna incluse într-o pereche de paranteze - vă permit să distingeți adresa din compoziția lor de o valoare de alt tip Cel mai simplu mod de adresare din această categorie este adresarea directă, în care adresa de date a operandului este inclusă în instrucțiune Exemplu: ADAUGĂ SH ( ) În acest caz, la registrul CX se adaugă conținutul cuvântului de memorie situat la adresele și În limbajul de asamblare, celulele sunt de obicei exprimate ca etichete, nu ca valori numerice, iar conversia este deja efectuată în timpul asamblarii Chiar și în instrucțiunile CALL și JMP, operandul țintă poate fi stocat în locația de memorie indicată de etichetă Parantezele din jurul etichetelor sunt absolut necesare (cel puțin pentru asamblatorul despre care vorbim), întrucât următoarea comandă are și dreptul de a exista: ADAUGĂ СХ, Totuși, această comandă exprimă o operațiune complet diferită și anume, adăugarea constantei la valoarea registrului CX, și nu conținutul cuvântului de memorie situat la adresa Simbolul # în Tabel B poate desemna o constantă numerică, o etichetă sau o expresie constantă etichetată Cu adresarea indirectă a registrului, adresa operandului este stocată într-unul dintre cele trei registre: BX, SI sau DI În toate aceste cazuri, ajunge în segmentul de date De asemenea, este posibil să plasați o constantă înaintea unui registru, caz în care adresa este setată prin adăugarea registrului la constantă Acest tip de adresare, numită adresare de registru deplasat, este utilă atunci când se lucrează cu matrice Deci, dacă registrul SI conține valoarea , atunci al cincilea caracter al șirului identificat de eticheta FORMAT poate fi încărcat în registrul AL folosind operatorul MOVB AL, FORMAKSI) În acest caz, întreaga linie este vizualizată în fiecare etapă printr-o creștere pozitivă sau negativă a valorii registrului Când folosiți operanzi-cuvinte, valoarea registrului se modifică de fiecare dată într-o direcție sau alta cu De asemenea, este posibil să plasați baza (adică adresa numerică de jos) a matricei în registrul BX, păstrând registrele SI sau DI pentru referință Această schemă se numește adresarea registrului index Exemplu: PUSH (BX)(DI) Memorie și adresare Acest cod preia conținutul unei celule dintr-un segment de date cu o adresă care este determinată de suma registrelor BX și DI Valoarea rezultată este apoi împinsă pe stivă Combinația ultimelor două tipuri de adresare are ca rezultat adresarea registrului indexat cu un offset: NU (IN)(DI) Această instrucțiune accesează cuvântul de memorie la adresele BX + DI + și BX + DI + Toate metodele de adresare indirectă aplicabile segmentului de date sunt relevante și pentru segmentul de stivă; în acest din urmă caz, registrul de bază BX este înlocuit cu indicatorul de bază BP Astfel, (VR) este doar un mod de adresare indirectă a stivei de registre, cu toate acestea, există moduri mai complexe, în special, adresare indirectă prin indicator de bază cu index și offset: ? (VR) (SI) Aceste moduri sunt utile atunci când accesați variabilele locale și parametrii funcției stocați la adresele stivei din subrutine Schema corespunzătoare este descrisă în subsecțiunea Apeluri subrutine Toate adresele corespunzătoare modurilor de adresare enumerate pot acționa atât ca surse, cât și ca destinații în operațiuni Luate împreună, aceste două categorii sunt numite adrese valide Modurile de adresare ale celor două categorii rămase nu presupun prezența receptorilor, deci adresele corespunzătoare nu se numără printre cele valabile Sunt folosite doar ca surse Modul de adresare în care operandul este un octet constant sau o valoare de cuvânt se numește adresare imediată De exemplu: SMR AX, Această instrucțiune compară valoarea din registrul AX cu constanta și setează biții din registrul flag în funcție de rezultat În cele din urmă, unele comenzi folosesc adresare implicită În astfel de instrucțiuni, operandul sau operanzii sunt doar implicite De exemplu: IMPINGE SEORUL Această instrucțiune împinge conținutul registrului AX în stivă; pentru a face acest lucru, scade valoarea lui SP cu unul și apoi copiază conținutul lui AX în celula către care SP indică acum În acest caz, registrul SP nu este menționat în comandă De asemenea, registrul steagului de stare nu este menționat în instrucțiunile de control al pavilionului Operanzii impliciti sunt folosiți și în alte instrucțiuni Procesorul oferă instrucțiuni speciale pentru mutarea (MOVS), compararea (CMPS) și răsfoirea șirurilor (SCAS) După executarea acestor comenzi șir, conținutul registrelor de index SI și DI este actualizat automat Acest mecanism se numește, în funcție de direcție, modul auto-incrementare sau auto-decrementare Direcția de creștere (pozitivă sau negativă) a registrelor SI și DI este determinată de indicatorul de direcție din registrul de indicatori de stare Un steag de direcție cu o valoare de zero indică o creștere pozitivă, iar un steag cu o valoare de unu determină o creștere negativă Valoarea de increment este de în instrucțiuni de octeți și în instrucțiuni de cuvinte Într-un fel, indicatorul de stivă este legat și de modurile de auto-increment și auto-decrement: valoarea sa este decrementată cu la începutul operațiunii PUSH și incrementată cu la sfârșitul operațiunii POP Anexa B Programare în limbaj de asamblare Setul de comenzi Orice computer se caracterizează, în primul rând, prin setul de comenzi pe care este capabil să le execute Pentru a înțelege cum funcționează un computer, este necesar să-i studiezi în detaliu setul de instrucțiuni În această secțiune, vom discuta cele mai importante comenzi Unele dintre aceste comenzi sunt prezentate în Tabelul B , unde sunt împărțiți în grupe Tabelul B Unele dintre cele mai importante instrucțiuni din procesorul Mnemonic Descriere Operanzi Indicatori de stare Despre SZ cu MOV(B) Mutare cuvânt, octet r e - - - - LEA Încărcați adresa validă r r, e # * * CMP(B) Compara operanzi e r, e # * * * * STD Setați steag de direcție (i) - - - - - CLD Indicatorul direcției de resetare (î) - - - - - STC Setare flag de transport - - - - CLC Clear Carry Flag - - - - Transfer CMC înapoi - - - - * LOOP Salt înapoi dacă DEC(CX) > Etichetă - - - - LOOPZ LOOPE Salt înapoi dacă Z = și DEC(CX) > Etichetă - - - - LOOPNZ LOOPNE Salt înapoi dacă Z = și DEC(CX) > Etichetă - - - - REP REPZ REPNZ Repetare șir de comandă șir de comandă - - - - MOVS(B) Mută șirul de cuvinte - - - - - LODS(B) Încarcă șirul de cuvinte - - - - - STOS(B) Stocare șir de cuvinte - - - - - SCAS(B) Vedeți șirul de cuvinte - * * * * Comparație șiruri de cuvinte CMPS(B) - * * * * Etichetă de ramură condiționată JCC - - - - JMP Salt la eticheta e, label - - - - CALL Salt la subrutina e, etichetă - - - - RET Întoarcere din subrutină -, # - - - - Excepție de sistem SYS Throw - - - - - Anexa B Programare în limbaj de asamblare Mutare, copiere și comenzi aritmetice Primul grup include comenzi de copiere și mutare Comanda MOV, care specifică în mod explicit adresele sursă și destinație, este extrem de importantă Dacă adresa sursă este un registru, adresa de destinație poate fi validă În tabel Operanzii de registru B sunt notați cu simbolul r, iar adresele reale cu simbolul e În consecință, combinația în cauză arată ca r Această desemnare este cea care este prima în celula de operand a instrucțiunii MOV Deoarece sintaxa instrucțiunii necesită ca adresa de destinație să fie primul operand și adresa sursă să fie a doua, caracterul săgeată la stânga ( ) este folosit pentru a indica operația de schimb în tabel Întrucât în acest caz există variante ale operației cu un octet și cu un cuvânt, câmpul operand al instrucțiunii XCHG conține denumirea r e Următorul tabel listează comanda de încărcare adrese valide (LEA) Determină valoarea numerică a adresei reale și o stochează într-un registru Urmează instrucțiunea PUSH, care își împinge operandul pe stivă Operandul său explicit poate fi fie o constantă (reprezentată prin caracterul "#" în coloana cu operand), fie o adresă reală (caracterul "e" în coloana cu operand) În plus, există un operand SP implicit care nu este specificat în sintaxa instrucțiunii Instrucțiunea scade valoarea SP cu și apoi stochează operandul la adresa către care SP indică după actualizare Următoarea comandă este POP Îndepărtează operandul din stivă și îl plasează la adresa reală Instrucțiunile PUSHF și POPF care împing și pop registrul de steag de stare au și operanzi impliciti Situația este similară cu instrucțiunea XLAT, care încarcă registrul de octeți AL din adresa formată prin adăugarea AL și BX Această comandă vă permite să efectuați căutări online în tabele de de octeți Setul de comenzi Comenzile IN și OUT definite în specificația oficială nu sunt implementate în interpret (și, prin urmare, nu sunt listate în Tabelul B ) De fapt, acestea sunt comenzi pentru mutarea datelor în și afară dintr-un dispozitiv I/O Adresa implicită din ele este întotdeauna registrul AX, iar al doilea operand al comenzilor este numărul de port al registrului dispozitivului țintă În a doua grupă a Tabelului B introduce comenzi de adunare și scădere Toate sunt caracterizate de aceeași combinație de trei operanzi ca și pentru MOV: de la adresa reală la registru (r ) în acest caz indică operații de comparare și verificare cu doi operanzi imuați La executarea instrucțiunii TEST cu operanzi, se efectuează o operație logică AND, în urma căreia steagurile zero și semn sunt setate sau resetate Valoarea calculată nu este salvată, iar operanzii rămân neschimbați Comanda CMP se reduce la calcularea diferenței dintre operanzi, ca urmare, toate cele patru steaguri sunt setate sau șterse Indicatorul de direcție, care reglează incrementul negativ și pozitiv al valorilor registrelor SI și DI la executarea instrucțiunilor șir, poate fi setat sau resetat de instrucțiunile STD și, respectiv, CLD Procesorul oferă, de asemenea, flag-uri de paritate și de transport Indicatorul de paritate, după cum sugerează numele său, indică dacă rezultatul este par sau impar Indicatorul de transport al serviciului verifică dacă a avut loc o transportare în partea inferioară (de biți) a adresei țintă În plus, există instrucțiuni LAHF și SAHF care copiază octetul inferior al steagului Setul de comenzi înregistrează-te pentru a înregistra AH și invers Flag-ul de overflow este situat în octetul înalt al registrului de cod de condiție și nu este copiat în timpul execuției comenzilor de mai sus Comenzile și steagurile discutate în acest paragraf sunt introduse în primul rând pentru compatibilitatea cu procesoarele și Operații de buclă și operații cu șiruri repetate Următorul grup conține comenzi în buclă Instrucțiunea LOOP incrementează registrul CX și, dacă este pozitivă, sare înapoi la eticheta specificată Instrucțiunile LOOPZ, LOOPE, LOOPNZ și LOOPNE, printre altele, verifică valoarea steagului zero pentru a vedea dacă bucla ar trebui să se termine înainte ca registrul CX să ajungă la zero Adresa țintă în toate comenzile din categoria LOOP nu trebuie să fie mai mare de de octeți de la poziția curentă a contorului de programe; acest lucru se datorează faptului că comenzile au un offset semnat pe biți Numărul de instrucțiuni (spre deosebire de octeți) prin care se poate face un salt nu este determinat cu precizie din cauza diferenței de lungime dintre aceste instrucțiuni De regulă, primul octet specifică tipul de instrucțiune și, în multe cazuri, conținutul segmentului de cod de instrucțiune este limitat la acesta Al doilea octet determină adesea registrele utilizate de instrucțiune și modul de adresare a registrului, iar dacă instrucțiunea folosește un offset sau conține date imediate, lungimea sa crește la patru până la șase octeți Lungimea medie a instrucțiunii este de , octeți, astfel încât cantitatea de salt înapoi în cicluri este limitată la aproximativ de instrucțiuni Există o serie de mecanisme speciale pentru organizarea ciclurilor de instrucțiuni șiruri: REP, REPZ și REPNZ Cele cinci comenzi șir listate în următorul grup de tabel B , utilizați adrese implicite și moduri de operare auto-increment/auto-decrementare cu registre index În toate aceste instrucțiuni, registrul SI indică segmentul de date, iar registrul DI indică un segment suplimentar bazat pe conținutul registrului ES La fel ca REP, comanda MOVSB vă permite să mutați linii întregi simultan Lungimea șirului este determinată de valoarea registrului CX Deoarece comanda MOVSB nu afectează starea steagurilor, nu este posibil să se verifice prezența unui octet ASCII-zero în timpul copierii folosind REPNZ; Pentru a corecta această situație, trebuie mai întâi să emiteți instrucțiunea REPNZ SCASB, care vă permite să plasați o valoare semnificativă în registrul CX, apoi să executați REP MOVSB Un exemplu de utilizare a acestui mecanism în practică este oferit în lista de coduri de copiere a șirurilor din secțiunea Exemple Când lucrați cu toate comenzile menționate, trebuie acordată o atenție deosebită registrului segmentului ES (dacă valoarea acestuia nu se potrivește cu valoarea registrului DS) Deoarece interpretul implementează un model de memorie mică, ES = DS = SS Sariți și apelați comenzi În ultimul grup de Tabel LA sunt prezentate comenzi de sărituri condiționate și necondiționate, apel de subrutine și întoarcere Cea mai simplă dintre acestea este instrucțiunea JMP Anexa B Programare în limbaj de asamblare Eticheta din ea poate indica adresa țintă sau conținutul oricărei adrese valide Trebuie luată în considerare diferența dintre tranzițiile apropiate și cele îndepărtate Obiectul tranziției apropiate este segmentul de cod curent, neschimbat în timpul execuției operației În procesul unei tranziții îndepărtate, valoarea registrului CS, dimpotrivă, se modifică În cazul adresei directe folosind o etichetă, noua valoare a registrului de segment de cod este setată la un apel după etichetă; în cazul unei adrese valide, un cuvânt lung este selectat din memorie, rezultând cuvântul scăzut corespunzător etichetei țintă și cuvântul înalt corespunzător noii valori a registrului de segment de cod Nu este nimic surprinzător într-o asemenea diferență Pentru a sări la o adresă arbitrară într-un spațiu de adresă de de biți, este necesar un mecanism care să determine o adresă mai lungă de biți Acest mecanism există și constă în atribuirea de noi valori registrelor CS și PC Salturi condiționate Procesorul are tipuri de salturi condiționate, dintre care unele au mai multe nume (de exemplu, JUMP GREATER OR EQUAL și JUMP NOT LESS THAN sunt echivalente) Toate sunt enumerate în tabel V Z Distanța maximă de salt este de de octeți de la instrucțiunea curentă Dacă obiectul de săritură este în afara razei de acțiune, trebuie să implementați un salt compus (săritură sau săritură) În acest caz, a doua tranziție cu condiția opusă este folosită pentru a trece prin următoarea comandă Dacă instrucțiunea următoare definește un salt necondiționat la adresa țintă, atunci combinația acestor două instrucțiuni nu face decât să prelungească saltul de tipul specificat De exemplu: JB Farlabel Această comandă trebuie înlocuită cu următoarea construcție: JNAlf JMP FARLABEL : Cu alte cuvinte, dacă instrucțiunea JUMP BELOW nu poate fi executată, se realizează o construcție constând din instrucțiunea JUMP NOT ABOVE cu eticheta din apropiere ca obiect și un salt necondiționat la FARLABEL Rezultatele sunt aceleași în ambele cazuri, diferența constă doar în costuri mai mari sau mai mici de timp și spațiu Dacă obiectul de tranziție este prea departe, asamblatorul aranjează automat o tranziție compusă Este destul de dificil să efectuați corect astfel de calcule Să presupunem că distanța până la obiect este aproape de maximul admis și, în același timp, unele comenzi intermediare conțin sărituri condiționate O tranziție externă poate fi efectuată numai după determinarea distanțelor tranzițiilor interne Într-o astfel de situație, asamblatorul ia anumite măsuri de precauție De exemplu, poate forma o tranziție compozită fără o nevoie strictă de ea Un salt condiționat imediat este generat de asamblator numai dacă obiectul de salt este exact la îndemână Setul de comenzi Tabelul B- - Salturi condiționate Comanda Descriere Condiție de salt JNA, JBE Mai mic sau egal cu CF = sau ZF = JNB, JAE, JNC Cel puțin CF = JE, JZ Zero, este egal cu ZF = t@tabl body = JNLE, JG Mai mare decât SF = OF și ZF = JGE, JNL Mai mare sau egal cu SF = OF JO Overflow OF = JS Semn negativ SF = Valoarea JCXZ CX este zero CX = JB, JNAE, JC Sub CF = JNBE, JA Deasupra CF = și ZF = JNE, JNZ Nu este egal cu zero, nu este egal cu ZF = JL, JNGE Mai puțin de SF * OF JLE, JNG Mai mic sau egal cu SF F OF sau ZF = JNO Fără depășire OF = JNS SF nenegativ = Cele mai multe salturi condiționate depind de semnalizatoarele de stare și sunt precedate de instrucțiuni de comparare sau de testare Instrucțiunea CMP scade operandul sursă din operandul destinație, setează codurile de stare și apoi resetează rezultatul Niciunul dintre operanzi nu este modificat Dacă rezultatul este zero sau bitul de semn este setat (indicând un rezultat negativ), bitul de flag corespunzător este setat Dacă rezultatul nu poate fi exprimat într-un număr valid de biți, este setat indicatorul de depășire Dacă bitul cel mai semnificativ este urmat de o transportare, indicatorul de transport este setat Cu salturi condiționate, toți acești biți pot fi verificați Instrucțiunile GREATER THAN și LESS THAN sunt folosite pentru a procesa operanzi semnati Operanzii nesemnați sunt procesați de instrucțiunile de SUS și DE JAS Apeluri subrutine Procesorul are o instrucțiune care vă permite să apelați proceduri, care în limbajul de asamblare sunt de obicei numite subrutine Prin analogie cu comenzile de tranziție, aici există comenzi aproape și departe Interpretul implementează doar apelul apropiat Obiectul de apel este fie o etichetă, fie se află la o adresă validă Parametrii necesari pentru apelarea subrutinelor sunt plasați inițial pe stivă în ordine inversă (Figura B ) În limbajul de asamblare, parametrii sunt de obicei numiți argumente, deși nu există nicio diferență fundamentală între acești termeni După plasarea argumentelor pe stivă, instrucțiunea CALL este executată În primul rând, împinge valoarea curentă a contorului programului în stivă Anexa B Programare în limbaj de asamblare păstrând astfel adresa de retur Adresa de retur este adresa la care execuția programului apelant se reia după revenirea subrutinei VR + VR + VR + VR + BP VR- BP- VR- VR- Argumentul Argumentul Adresa expeditorului Valoare veche BP (creștere) sau ) Adresele de retur subprogramelor sunt indicate printr-o cifră înaintea valorii hexazecimale Secțiunea din dreapta sus afișează partea din fișierul sursă care conține următoarea comandă în ordinea execuției Poziția contorului de programe, ca și poziția indicatorului stivei, este determinată de săgeata (=>) Sub secțiunea procesor sunt ultimele puncte de apel ale subrutinei din codul sursă Mai jos se află secțiunea de comandă de urmărire, cu comanda anterioară în partea de sus și cursorul de comandă în partea de jos Rețineți că fiecare comandă trebuie să se încheie cu un întoarcere de cărucior (pe tastaturile PC, aceasta se introduce prin apăsarea tastei Enter) Secțiunea inferioară poate conține șase elemente ale memoriei globale de date Fiecare astfel de element începe la o poziție relativă la o anumită etichetă, urmată de o poziție absolută în segmentul de date Apoi, se pun două puncte și octeți sunt afișați în reprezentare hexazecimală Următoarele poziții sunt rezervate caracterelor care pot fi urmate de patru cuvinte în notație zecimală Octeții, caracterele și cuvintele reprezintă aceeași zonă de memorie, dar pentru o expresie de caracter Anexa B Programare în limbaj de asamblare sunt furnizați trei octeți suplimentari Această decizie se datorează faptului că inițial nu este clar sub ce formă vor fi prezentate datele: sub formă de numere întregi semnate sau nesemnate, sau sub formă de șir Secțiunea din dreapta din mijloc este rezervată pentru intrare și ieșire Prima linie este ieșirea erorii de urmărire, a doua linie este intrarea, iar următoarele câteva linii sunt ieșirea Ieșirea de eroare este precedată de litera £, intrarea de litera I și ieșirea standard de simbolul > Într-un câmp de introducere, o săgeată (->) indică următorul indicator în ordinea citirii Când apelați read sau getchar, următoarea expresie introdusă pe linia de comandă a tracerului intră în câmpul de intrare În acest caz, trebuie să completați intrarea apăsând tasta Enter Partea momentan neprocesată a șirului este după săgeată (->) De obicei, un urmăritor citește comenzile și intrările dintr-un fișier de intrare standard În același timp, puteți pregăti un fișier cu comenzi de urmărire și un fișier cu linii de intrare care va fi citit înainte de a trece controlul fișierului de intrare standard Fișierele de comandă Tracer sunt salvate cu extensia t, în timp ce fișierele de intrare sunt salvate cu extensia i În limbajul de asamblare, cuvintele cheie, rutinele de sistem și pseudo-instrucțiunile pot folosi atât caractere majuscule, cât și litere mici Procesul de asamblare creează un fișier $ în care cuvintele cheie cu litere mici sunt convertite în majuscule și returnările de transport sunt eliminate Cu acest sistem, fiecare proiect (să zicem că se numește pr) poate avea până la șase fișiere: Fișier cu cod sursă în limbaj de asamblare (pr s) Fișier cu codul sursă îmbinat (rg $) Descărcați fișierul (rg ) Fișier de intrare standard presetat (pr i) Fișier preinstalat cu comenzi de urmărire (pr t) Fișier pentru conectarea codului în limbaj de asamblare cu fișierul de descărcare (pr #) Tracerul umple secțiunea din dreapta sus a ferestrei și câmpul contorului programului cu conținutul ultimului fișier În plus, urmăritorul verifică când a fost creat fișierul de descărcare: înainte de ultima modificare a codului sursă al programului sau după; în primul caz, se generează un avertisment Comenzi Tracer Comenzile de urmărire sunt listate în tabel LA Cele mai importante dintre acestea sunt instrucțiunea de returnare unică (primul rând al tabelului), care execută o instrucțiune de procesor și instrucțiunea de ieșire q (rândul de jos al tabelului) Numărul ca nume de instrucțiune indică numărul de instrucțiuni de procesor pregătite pentru execuție Astfel, numărul k este echivalent cu repetarea ^-fold a comenzii return Un efect similar este obținut dacă numărul este urmat de un semn de exclamare (!) sau de un X Fiecare comandă trebuie să fie urmată de un întoarcere de cărucior (prin apăsarea tastei Enter) O celulă goală indică faptul că nu este necesară nicio acțiune suplimentară în afară de întoarcerea căruciorului Comenzile fără valoare în coloana Adresă nu au o adresă Caracterul # denotă un decalaj întreg trasor Tabelul B Comenzi Tracer Adresă Comanda Exemplu Descriere Executarea comenzii unice #,! ,х Executarea de # comenzi /T+# g J , /start + g Rulați la linia # după T /T +# b /start + b Plasează punctul de întrerupere pe linia # după eticheta T /t +# s /start + c Eliminați punctul de întrerupere din linia # după T # g g Execuția programului până la rândul # gg Rulați programul până când se ajunge din nou la linia curentă bb Plasați un punct de întrerupere pe linia curentă c c Eliminați punctul de întrerupere din linia curentă nn Executați programul până la următoarea linie r Executați la punctul de control sau la final = = Programul rulează la același nivel de subrutină - - Rulați la nivelul subrutinei minus ++ Rulați la nivelul subrutinei plus /D +# /buf + Afișează segmentul de date la etichetă +# /D +# d , ! /buf + d Afișează segmentul de date la etichetă +# R , CTRL LR Actualizați ferestrele qq Terminați trasarea, reveniți la shell Comanda g vă permite să săriți la o anumită linie dintr-un fișier sursă Această comandă vine în trei versiuni Dacă este precedat de un număr de linie, trasorul continuă până când ajunge la acea linie Dacă există un steag /T (cu sau fără +# caractere în adresă), numărul liniei pe care trebuie să se oprească trasorul este calculat din eticheta comenzii T Dacă nu există elemente suplimentare înaintea comenzii g, trasorul continuă pentru a executa comenzi până când ajunge din nou la linia cu numărul curent Există două variante ale comenzii /labei: pentru etichetele de comandă și etichetele de date În primul caz, rândul din fereastra de jos este completat sau înlocuit cu setul de date începând cu eticheta dată În al doilea caz, comanda /labei: este echivalentă cu comanda e După etichetă, un semn plus și un număr (în tabelul B , numerele sunt notate cu simbolul #) pot fi setate pentru a permite decalajul față de eticheta Comanda b poate fi folosită pentru a seta un punct de întrerupere Comanda b poate fi precedată de o etichetă de comandă cu sau fără decalaj Dacă se întâlnește o linie de punct de întrerupere în timpul execuției, trasorul se oprește Pentru a relua execuția de la un punct de control, este necesară o comandă de returnare sau de rulare Dacă eticheta și numărul sunt omise, punctul de întrerupere este setat pe linia curentă Comanda specială c vă permite să eliminați punctul de întrerupere, care, ca și comanda b, poate fi precedat de etichete și numere Există Anexa B Programare în limbaj de asamblare de asemenea, comanda de rulare r, pe care trasorul o execută până la un punct de control, apel la o comandă de sfârșit sau sfârșit de comenzi În plus, urmăritorul ține evidența nivelului subrutinei la care rulează programul Acest nivel este listat în secțiunea procesor; poate fi determinată și de numerele din secțiunea stivă Există trei comenzi bazate pe nivelurile subrutinei Comandă - face ca programul de urmărire să ruleze până când nivelul curent al subrutinelor este înlocuit cu unul inferior (mai precis, următorul în ordine descrescătoare) De fapt, această instrucțiune continuă să execute instrucțiunile procesorului până la sfârșitul subrutinei curente Funcția opusă este efectuată de comanda +, care face ca programul de urmărire să ruleze până când sare la un nivel superior (următorul în ordine crescătoare) de subrutine Comanda = continuă trasarea la un nivel similar cu cel curent și poate fi folosită pentru a executa subrutine în cadrul comenzii CALL Când utilizați comanda =, detaliile subrutinei nu sunt afișate în fereastra de urmărire Există o comandă similară, n, care continuă execuția până la următoarea linie a programului Este util mai ales atunci când este apelat ca o comandă LOOP; execuția se oprește în același timp cu sfârșitul buclei Acțiuni pregătitoare Această secțiune listează pașii de care trebuie să vă pregătiți pentru a utiliza instrumentele de mai sus În primul rând, trebuie să alegeți software-ul pentru o anumită platformă Am compilat versiuni pentru Solaris, UNIX, Linux și Windows Toate aceste versiuni sunt disponibile pe CD-ul însoțitor și pe internet la www prenhalLcom/tanenbaum Accesați site-ul, apoi secțiunea Companion Web Site aferentă acestei cărți și, în final, selectați linkul dorit din meniul din stânga Despachetați fișierul zip selectat în folderul de asamblare Acest folder și subfolderele sale conțin tot materialul necesar Pe CD, folderele principale sunt Bigendnx, LtlendNx și MSWindos Fiecare dintre ele are un subfolder de asamblare, în care, din nou, puteți găsi tot ce aveți nevoie Cele trei foldere menționate sunt pentru sistemele Little Endian UNIX (adică stațiile de lucru Sun), pentru sistemele Little Endian UNIX (sisteme de operare Linux instalate pe PC) și sistemele Windows După despachetare sau copiere, următoarele subfoldere ar trebui să apară în folderul de asamblare: READ ME, bin, as src, trce src, exemple și exercițiu Fișierele sursă precompilate sunt în folderul bin, iar binarele corespunzătoare sunt în folderul exemple Pentru a obține informații de bază despre cum funcționează sistemul, accesați folderul exemple și introduceți comanda t HlloWrld Această comandă este prezentată în primul exemplu din secțiunea Exemple Codul sursă pentru asamblator se află în folderul as src Fișierele sursă sunt scrise în C și pot fi recompilate cu următoarea comandă Pentru Exemple Pentru platformele compatibile cu POSIX, utilitarul MakefiLe este furnizat în folderul sursă pentru a efectua recompilarea Pentru Windows, există un fișier batch make bat Este posibil să fie nevoie fie să mutați executabilele în folderul programului după compilare, fie să modificați variabila PATH pentru a face ca asamblatorul as și programul de urmărire t să fie vizibile din folderele sursă Dacă acest lucru nu se face, atunci în loc de comanda t , va trebui să introduceți calea completă către fișier Pe sistemele Windows și XP, driverul terminalului ansi sys trebuie instalat; Pentru a face acest lucru, adăugați următoarea linie la fișierul de configurare config nt: dev ce=^siystemRoot^\Siystem \ansi sys Acest fișier se află pe următoarea cale: ♦ în Windows - \winnt\system \config nt; ♦ în Windows XP - \windows\system \config nt Pe Windows , și ME, șirul de instalare a driverului trebuie introdus în fișierul config sys Pe UNIX și Linux, este de obicei instalat implicit Exemple În secțiunile Procesor , Memorie și Adresare și Set de instrucțiuni , ne-am uitat la procesorul , memoria și instrucțiunile acestuia Apoi, în secțiunea "Asamblator", am analizat limbajul principal de asamblare pentru acest manual - as Secțiunea Tracer a fost dedicată studiului trasorului În cele din urmă, în secțiunea Etape pregătitoare, au fost furnizate instrucțiuni pentru configurarea casetei de instrumente Teoretic, toate aceste informații sunt destul de suficiente pentru scrierea și depanarea programelor în limbaj de asamblare folosind aceste instrumente În același timp, ni se pare că va fi interesant pentru cititor să se familiarizeze cu exemple detaliate de programe în limbaj de asamblare și modalități de a le depana folosind un trasor Astfel de exemple sunt prezentate în această secțiune Toate programele pe care le vom acoperi aici pot fi găsite în folderul de exemple al setului de instrumente Auto-asamblarea și urmărirea fiecărui exemplu sunt binevenite cu căldură Salut Lume Să începem cu exemplul de program HLLoWrLd s Listarea B arată codul sursă al programului, iar în fig B arată conținutul ferestrei de urmărire În listă, un caracter de comentariu (!) separă comenzile de numerele de rând Primele trei linii conțin definiții constante care leagă aliasurile celor două apeluri de sistem și fișierul de ieșire la reprezentările lor interne respective Pseudocomandă SECT pe linia indică faptul că următoarele rânduri fac parte din secțiunea de text, cu alte cuvinte, sunt instrucțiuni ale procesorului De asemenea, tot ceea ce urmează linia este considerat date Linia inițializează un șir de date format din octeți, inclusiv un spațiu și un caracter newline (\n) la sfârșit Anexa B Programare în limbaj de asamblare EXIT = I CS DS=SS=ES: MOV CX,de-hw ! WRITE= I AH- AL: c AX: PUSH CX I STDOUT = I BH: BL:OO BX: PUSH HW I SECT TEXT ! CH: CL:Oc CX: PUSH STDOUT ! start: I DH: DL:OO DX: PUSH WRITE ! MOV CX,de-hw I SP fd SF DSZC => SYS ! PUSH CX I BP CC - > P - - => ADD SP, ! PUSH hw I SI : IP: : c:PC SUB CX AX ! PUSH STDOUT! Dl: start + c PUSH CX ! PUSH WRITE E SYS I ADD SP, I SUB CX AX hw PUSH CX ■ > Bună lume\n PUSH EXIT I hw + = : c c f f Hello World SYS SECT DATE hw: ASCII "Hello World\n" I de: BYTE I Orez LA Conținutul ferestrei de urmărire când este executat programul din lista B Lista B Codul de asamblare al programului HlloWrld s EXIT = ! SCRIE= ! STDOUT = ! SECT TEXT ! start: ! MOV CX, de-hw ! PUSH CX! PUSH hw! PUSH STDOUT! PUSH SCRIE! SYS! unsprezece ADAUGĂ SP, ! SUB CX AX ! PUSH CX! PUSH EXIT ! SYS! SECT DATE ! hw:! ASCII "Bună lume\n" ! de: BYTE ! Rândurile , și conțin etichete, notate cu două puncte (:) Ele reprezintă valori numerice, asemănătoare constantelor În acest caz, asamblatorul trebuie să determine aceste valori numerice Deoarece eticheta de început se află la începutul secțiunii de text, se presupune că valoarea corespunzătoare este , dar valorile din etichetele ulterioare ale secțiunii de text (nu sunt afișate în acest exemplu) sunt determinate de numărul de octeți de cod precedați Acum luați în considerare linia Se termină cu diferența dintre cele două etichete - o constantă numerică Astfel, linia poate fi echivalată cu următoarea expresie: MOV CX, Exemple Singura diferență dintre ele este că într-un caz lungimea șirului este determinată de asamblator, iar în celălalt de programator Valoarea specificată aici exprimă cantitatea de spațiu din secțiunea de date rezervată pentru a găzdui linia situată pe linia Instrucțiunea MOV de pe linia este o comandă de copiere de -hw în registrul CX Conținutul liniilor - demonstrează mecanismul de generare a apelurilor de sistem în setul de instrumente utilizat De fapt, aceste linii reprezintă un apel de funcție tradus în limbaj de asamblare din limbajul C: write(l, hw, ); Aici, primul parametru este un descriptor de fișier la ieșirea standard ( ), al doilea este adresa liniei de afișat (hw), iar al treilea este lungimea liniei ( ) În liniile - , acești parametri sunt împinși pe stivă în ordine inversă, ceea ce corespunde secvenței de apel acceptate în C și utilizate de acest program de urmărire Linia împinge numărul de apel de sistem pentru funcția write( ) în stivă, iar linia AND execută apelul în sine Această ordine este în mare măsură în concordanță cu execuția unui program în limbaj de asamblare în clone UNIX (sau Linux), dar atunci când rulează pe un alt sistem de operare, trebuie ajustată pe baza regulilor specifice pentru executarea apelurilor de sistem Cu toate acestea, chiar și atunci când rulează pe Windows, asamblatorul as și trasorul t implementează reguli de apelare UNIX Apelul de sistem pe linia AND este responsabil pentru ieșirea datelor Codul de pe linia curăță stiva, resetând indicatorul stivei la valoarea pe care o avea înainte ca patru cuvinte de octeți să fie plasate pe stivă Dacă apelul de scriere reușește, numărul de octeți scriși este returnat în registrul AX Pe linia , rezultatul apelului de sistem după linia AND este scăzut din lungimea inițială a liniei în CX; aceasta verifică succesul apelului, adică scrierea efectivă a tuturor octeților Astfel, codul de ieșire trebuie să fie egal cu zero dacă apelul are succes și, în consecință, nu este egal cu zero în caz contrar Liniile și pregătesc apelul de sistem de ieșire pe linia ; pentru a face acest lucru, codurile de ieșire și funcțiile legate de apelul EXIT sunt introduse în stivă Rețineți că în comenzile MOV și SUB, primul argument indică destinația și al doilea argument spre sursă Aceasta este particularitatea asamblatorului nostru; la alți asamblatori, ordinea poate fi diferită Alegerea de către dezvoltatori a uneia sau alteia opțiuni, în general, este arbitrară Acum să încercăm să asamblam și să rulăm programul HHoWdd s Comenzile prezentate sunt potrivite atât pentru UNIX, cât și pentru Windows Pentru Linux, Solaris, MacOS X și alte clone UNIX, procedura este aceeași ca și pentru UNIX de bază Mai întâi, deschideți o fereastră de prompt de comandă (shell shell) În Windows, în cele mai multe cazuri, acest lucru se face selectând Start ► Toate programele ► Accesorii ► Prompt de comandă (Start ► Programe ► Accesorii ► Prompt de comandă) Apoi, treceți la directorul de exemple cu comanda cd Argumentul acestei comenzi este ales în funcție de locația casetei de instrumente în sistemul de fișiere Apoi verificați dacă există binare de asamblare și urmărire în acest director; pentru a face acest lucru, utilizați comanda Îs (UNIX) sau dir (Windows) Aceste fișiere sunt numite Anexa B Programare în limbaj de asamblare as și, respectiv, t Într-un mediu Windows, au extensia exe, dar nu trebuie să o specificați în comenzi Dacă nu există fișiere de asamblare și urmărire în directorul numit, găsiți-le și copiați-le în el După aceea, asamblați programul de testare folosind comanda as HlloWrld s Dacă binarul de asamblare se află într-adevăr în directorul de exemple, dar încă primiți o eroare după rularea acestei comenzi, pe UNIX încercați linia: /as HlloWrld s Pe Windows, în același scop, utilizați linia: \as HlloWrld s Dacă ansamblul se încheie cu succes, ar trebui să fie afișate următoarele mesaje: Project HlloWrld listfile HIloWrld $ Project HlloWrld num file HlloWrld # Project HlloWrld loadfile HlloWrld Desigur, trebuie create și fișierele corespunzătoare Dacă nu au existat mesaje de eroare, introduceți comanda t HlloWrld Ca rezultat, o săgeată va apărea în secțiunea din dreapta sus a ferestrei de urmărire, indicând comanda MOV CX de-hw Aceasta este comanda de la linia din listarea B Apoi apăsați tasta de întoarcere la cărucior (numită Enter pe tastaturile PC) După cum puteți vedea, acum săgeata indică către comandă PUSH CX În registrul CX, conform conținutului secțiunii din stânga a ferestrei, valoarea este acum Apăsați din nou tasta de întoarcere a căruciorului și rețineți că valoarea s a apărut în secțiunea din mijloc sus - echivalentul hexazecimal al zecimalului Această secțiune arată conținutul stivei, unde în acest moment există un cuvânt - Apăsați tasta de întoarcere caruș de încă trei ori și vedeți cum vor fi procesate comenzile din liniile , și După aceea, ar trebui să fie procesate fi patru elemente pe stivă, iar în secțiunea din stânga, valoarea contorului programului este indicată cu numărul hexazecimal b Data viitoare când apăsați tasta de întoarcere cărucior, va fi executat un apel de sistem și următoarea linie va apărea în secțiunea din dreapta jos a ferestrei: "Bună lume\n" După cum puteți vedea, acum valoarea registrului SP este x ff O altă apăsare a tastei va crește SP cu - până la x ff După patru apăsări ale tastei de întoarcere a căruciorului, apelul de sistem de ieșire se va finaliza, la fel ca și traseul în sine Exemple Pentru a înțelege cum funcționează totul, este util să deschideți fișierul hLLoWrLd s în orice editor de text (este mai bine să refuzați utilizarea procesoarelor de text în acest caz) Pe UNIX, acest lucru se poate face în ex, vi sau emacs; pe Windows, alegerea cade în mod firesc pe Notepad (Notepad), pentru a deschide, de obicei, selectați comanda Start ► Toate programele ► Accesorii ► Notepad (Start ► Programe ► Accesorii ► Notepad) Procesorul de text Word nu este potrivit, deoarece poate distorsiona textul programului atât atunci când este afișat pe ecran, cât și când este salvat Schimbați mesajul de pe linia , salvați fișierul, asamblați-l și rulați-l în tracer Așa că vei face primul pas în domeniul programării în limbaj de asamblare Registre de uz general Următorul exemplu arată în detaliu mecanismul de mapare a registrului, precum și unul dintre "capcanele" operației de multiplicare B arată secțiunea de înregistrare a ferestrei trasoare după executarea liniei Lista B O parte a programului genReg s start: ! MOV AX, ! ADDB AH,AL ! MOV CX,(ori) ! MOV BX,mul dat! MOV AX (BX) ! buză: MUL (BX) ! LOOP buza! SECT DATE ! unsprezece ori: CUVINTUL ! mul dat: WORD ! CS: DS=SS=ES AH: AL: AX: BH: BL: BX: CH: CL: a CX: DH: DL:OO DX: SP: fe SF ODSZC BP: CC->P- S : IP : : PC Dl: art + - A CS: AN: AL: HH: BL: CH: CL: DH: DL; SP: BP: SI: Dl: fe DS=SS=ES ZC-c AX: BX: CX: DX: O DS SF CC IP: :pornire PC + b Orez LA Secțiunea registru fereastră trasoare: după executarea liniei (a); după șapte treceri ale buclei de multiplicare (b) Următoarea instrucțiune de pe linia încarcă valoarea în registrul AX: MOV AX, Anexa B Programare în limbaj de asamblare Ca rezultat, registrul AH este setat la , iar registrul AL este setat la Apoi, pe linia , se adaugă valorile AL și AH, iar valoarea lui AH este trei Linia copiază conținutul variabilei timpi ( ) în CX Linia încarcă registrul BX cu adresa variabilei mul dat egală cu , deoarece se află în al doilea octet al secțiunii de date În acest moment, captura de ecran prezentată în Fig B , a Rețineți că AH este , AL este și AX este ; acest lucru nu este surprinzător, deoarece x + = Următoarea comandă (pe linia ) copiază conținutul variabilei mul dat în registrul AX Astfel, după apăsarea tastei retur caruș, valoarea lui AX se va schimba la Acum suntem gata să rulăm o buclă care înmulțește conținutul registrului AX cu cuvântul BX (adică mul dat + ), care conține valoarea Adresa țintă implicită pentru instrucțiunea MUL este combinația de registru DX : AX La prima iterație a buclei, rezultatul ( ) se potrivește într-un cuvânt, deci este stocat în AX și DX rămâne zero Conținutul tuturor registrelor după treceri ale ciclului de înmulțire este prezentat în fig B , b Întrucât valoarea inițială a lui AX a fost , după șapte înmulțiri cu , rezultatul este Deoarece nu se încadrează în registrul AX, produsul este stocat în registrul de de biți format prin concatenarea registrelor DX : AX; astfel, DX conține valoarea și AX conține Când este calculat, se dovedește într-adevăr că x + + = Rețineți că valoarea CX în această etapă este , deoarece instrucțiunea LOOP o reduce cu una în timpul fiecare trecere Deoarece valoarea inițială a acestui registru era , după șapte apeluri la instrucțiunea MUL (și șase treceri ale instrucțiunii LOOP), valoarea CX a scăzut la Dificultăți apar în timpul următoarei operațiuni de înmulțire La înmulțire, este implicată doar valoarea AX, în timp ce valoarea DX este ignorată; astfel, instrucțiunea MUL înmulțește AX ( ) cu și obține Adică, noua valoare a lui AX devine , iar registrul DX este setat la zero, ceea ce este incorect numeric Apelarea instrucțiunilor și a registrelor pointerului Următorul nostru exemplu, vecprod s, este un program mic care calculează produsul interior a doi vectori, veci și vec Codul său este prezentat în Lista B Listarea V Z Programul vecprod s -EXIT= -PRINTF= SECT TEXT Inpstart: MOV BP SP împinge vec PUSH veci MOV CX,vec -vecl SHR CX l PUSH CX ! EXIT definiția valorii ! Definiția valorii PRINTF ! începutul secțiunii de text ! definiție de etichetă inpstart ! Salvați SP în BP ! introducere la adresa stivei ѵec ! împingând adresa veci pe stivă ! CX = numărul de octeți din vector ! CX = numărul de cuvinte din vector ! introducere stiva de cuvinte Exemple CALL vecmul MOV ( nprod),AX PUSH AX ! apel la vecmul ! mutați AX ! introducere în stiva ! rezultatul ieșirii PUSH pfmt! introducere în stiva ! formatează adresele șirurilor PUSH PRINTF ! introducere în stiva ! codul funcției PRINTF SYS ADD SP, PUSH PUSH EXIT SYS vecmul: ! PRINTF apel ! stivă clară! introducere în stiva de coduri de stare! introducere în stiva de coduri a funcției EXIT ! apel de funcție EXIT ! start vecmul(count, veci, vec ) PUSH BP MOV BP SP ! împingând valoarea BP pe stivă ! copiați SP în BP ! pentru a accesa argumente MOV CX CBP) ! de plasare contor în SH ! pentru controlul ciclului MOV SI, (BP) MOV DI, (BP) PUSH : LODS MUL (DI) ADD - (BP),AX ! SI = veci! DI = vec ! împingând valoarea pe stivă! mutați (SI) la AX ! înmulțiți AX cu (DI) ! plus AH! la valoarea stocată ADAUGĂ DI, ! trepte DI pentru a indica ! la următorul element LOOP b POP AX POP BP RET ! dacă CX > , reveniți la eticheta b ! Popping partea de sus a stivei în AX ! de recuperare BP ! întoarcere din subrutină SECT DATA pfmt: ASCIZ "Produs interior îs: ftd\n" ALIGN veci: WORD , , , , vec : WORD , , , , SECT BSS inprod: SPACE ! începutul secțiunii de date ! de linii! paritate forțată de adrese! vector ! vector ! începutul secțiunii BSS! spatiu alocat pentru nprod Prima parte a acestui program este de a pregăti un apel către funcția vecmul; pentru a face acest lucru, SP este stocat în BP, iar apoi adresele vec și veci sunt împinse pe stivă, ceea ce face posibil ca funcția vecmul să le acceseze Apoi, în linia , lungimea vectorului în octeți este încărcată în CX După mutarea acestui rezultat cu bit la dreapta (pe linia ), valoarea CX exprimă numărul de cuvinte din vector care este împins pe stiva pe linia Apelul către vecmul se face pe linia AND Merită remarcat, din nou, că argumentele subrutinei sunt împinse în stivă în ordine inversă, iar acest lucru se face pentru a se conforma ordinii de apelare C Deci, folosind C, funcția vecmul poate fi numită după cum urmează: vecmul(count, veci, vec ) În timpul execuției instrucțiunii CALL, adresa de retur este împinsă în stivă Prin urmărire, puteți determina că această adresă este x Anexa B Programare în limbaj de asamblare Prima comandă din subrutină este PUSH Se execută pentru indicatorul de bază (BP) de pe linia Valoarea BP este reținută deoarece acest registru va fi necesar pentru a aborda argumentele și variabilele locale ale acestei subrutine Mai mult, în linia , indicatorul de stivă este copiat în registrul BP; astfel, noua valoare a indicatorului de bază specifică valoarea veche a indicatorului de stivă După aceea, totul este gata pentru a încărca argumentele în registre și pentru a rezerva spațiu pentru o variabilă locală Următoarele trei linii scot argumentele pe rând din stivă și le plasează într-un registru După cum vă amintiți, stiva este optimizată pentru stocarea cuvintelor, ceea ce înseamnă că adresele trebuie să fie egale Adresa de retur urmează imediat indicatorul de bază vechi și, prin urmare, este accesată ca (BP) Următorul argument este count - (VR) Este încărcat în registrul CX de pe linia Pe liniile și , vectorii veci și vec sunt încărcați în registrele SI și, respectiv, DI Pentru a stoca rezultatul intermediar, această rutină are nevoie de o variabilă locală cu o valoare inițială de În acest sens, în linia , valoarea este împinsă în stivă Starea procesorului chiar înainte de prima iterație a buclei, începând cu linia , este prezentată în Figura LA Fereastra îngustă din mijlocul părții superioare (în dreapta registrelor) arată zona stivei În partea de jos este adresa ѵес ( x ); apoi, în ordine crescătoare, urmează adresa veci ( x ) și un al treilea argument care exprimă numărul de elemente din fiecare vector ( x ) Apoi este specificată adresa de retur ( x ) Numărul din stânga acestei adrese indică faptul că este o adresă de retur la un nivel distanță de programul principal În caseta de sub registre apare și numărul , dar de data aceasta reprezintă o adresă simbolică Deasupra adresei de retur de pe stivă este vechea valoare a BP ( x fc ) și zero, împinsă pe stivă pe linia Săgeata care indică această valoare reflectă poziția pointerului stivei (registrul SP) Fereastra din dreapta secțiunii stivei arată o bucată de text de program; săgeata de aici indică următoarea comandă în ordinea execuției MOV BP SP PUSHvec PUSH veci MOV CX,vec -vec I ! ! ! CS: DS=SS=ES => PUSH BP ! ! I I AH: AL: AX: BH: BL: BX: CH: CL: CX: MOV MOV MOV BP SP CX, (BP) SI, (BP) SHR CX, ! DH: DL: DX: fc MOV DI, (BP) I PUSHCX I SP: fb SF ODSZC PUSHO I Apelați vecmul ! BP: fb CC - > pz - => : LODS I - SI: IP:OO : PC MUL (Dl) ! vecmul: I Dl: vecmul+ ADD - (BP),AX I PUSH BP! MOV BP,SP ! eu MOV CX, (BP) ! PUSH I vec + = : b : LODS! vec + = : MUL (DL) ! pfmt+O = : e The in prod ADD - (BP),AX I pfmt+ = : a % d I ADAUGĂ Dl, BUCLA b! Orez LA Conținutul ferestrei de urmărire pentru programul vecprod s când este atinsă linia , dar înainte de începerea buclei Exemple Acum luați în considerare bucla care începe la linia Instrucțiunea LODS încarcă cuvântul de memorie din segmentul de date în AX prin registrul SI Deoarece steag-ul de direcție este setat, instrucțiunea LODS este executată în modul de auto-incrementare, ceea ce înseamnă că după finalizare, registrul SI indică următorul element al veci Pentru a reprezenta grafic acest mecanism, rulați comanda tracer t vecprod Când apare fereastra de urmărire, introduceți următoarea comandă: /vecmul+ b Apoi apăsați tasta de retur caruș, setând astfel un punct de întrerupere pe linia care conține comanda LODS (Nu vă vom reamintim mai târziu că trebuie să apăsați tasta de întoarcere la cărucior după toate comenzile ) Introduceți comanda g Ca rezultat al executării acestei comenzi, urmăritorul va executa comenzi până la punctul de control În acest caz, se va opri la linia care conține comanda LODS Pe linia , valoarea lui AX este înmulțită cu operandul original Cuvântul de memorie asociat cu instrucțiunea MUL este selectat din segmentul de date utilizând registrul DI folosind adresarea indirectă a registrului Adresa țintă implicită (nespecificată în instrucțiune) a instrucțiunii MUL este combinația de registre DX : AX Linia adaugă rezultatul la variabila locală situată pe stiva la adresa - (VR) Deoarece instrucțiunea MUL nu își auto-incrementează operandul, această acțiune este efectuată în mod explicit pe linia Registrul DI indică apoi următoarea intrare, wec Etapa curentă a programului se încheie cu comanda LOOP Valoarea registrului CX este incrementată negativ, iar dacă după aceea rămâne pozitivă, programul sare la eticheta locală pe linia Eticheta locală b înseamnă căutarea celei mai apropiate etichete în direcția opusă poziției curente Când bucla se termină, subrutina introduce valoarea returnată din stivă în registrul AX (linia ), restabilește valoarea BP (linia ) și revine la programul de apelare (linia ) După apel, execuția programului principal este reluată cu instrucțiunea MOV (sărire la linia ) Această comandă deschide o secvență de cinci comenzi menite să afișeze rezultatul Apelul de sistem printf este modelat după funcția printf a bibliotecii de programare standard C Liniile - împing argumente pe stivă: valoarea întreagă care trebuie tipărită, adresa șirului de format (pfmt) și codul funcției printf ( ) Șirul de format pfmt conține simbolul £d, indicând că variabila întreagă necesară pentru formatare este argumentul apelului printf Pe linia , stiva este curățată Deoarece începutul programului este pe linia , unde pointerul stivei a fost stocat în registrul pointerului de bază, puteți rula la fel de bine comanda pentru a șterge stiva MOV SP BP Anexa B Programare în limbaj de asamblare Avantajul acestei soluții este că programatorul nu trebuie să țină evidența stivei În cazul programului principal, acest lucru nu este foarte important, dar atunci când lucrați cu subrutine, această abordare vă permite să scăpați de datele inutile, cum ar fi variabilele locale învechite Subrutina vecmul poate fi inclusă în alte programe Dacă numele fișierului sursă vecprod s este plasat pe linia de comandă înaintea numelui altui fișier sursă în limbaj de asamblare, acesta din urmă poate apela rutina pentru înmulțirea a doi vectori cu lungime fixă Pentru a evita duplicarea, se recomandă mai întâi să excludeți definițiile constantelor EXIT și PRINTF Dacă fișierul antet syscalnr h este inclus, nu este nevoie să scrieți definiții constante de apel de sistem în altă parte Depanarea unui program de ieșire Array Programele discutate în exemplele anterioare sunt simple și nu conțin erori În acest exemplu, vom arăta cum un traser poate ajuta la depanarea programelor cu erori Următorul nostru program este să scoatem un tablou întreg definit după eticheta veci Există erori în versiunea ei originală Pentru a le identifica, vom folosi un asamblator și un trasor, dar mai întâi vom discuta despre cod Deoarece apelurile de sistem și, prin urmare, constantele prin care aceste apeluri pot fi distinse prin numere, sunt necesare oricărui program, am separat definițiile constantelor cu aceste numere într-un fișier antet separat, care este inclus în codul din prima linie : # psuda " /syscalnr h" Printre altele, acest fișier definește constante pentru următorii descriptori de fișiere: STDIN=O STDOUT= STDERR= Acestea se deschid la începutul procesului, iar antetul conține etichete care indică secțiuni de text și date Este logic să includeți acest fișier în antetul tuturor fișierelor de asamblare sursă, deoarece definițiile din el sunt foarte solicitate Dacă codul sursă este răspândit pe mai multe fișiere, asamblatorul include o singură versiune a fișierului antet, evitând astfel situația definițiilor multiple ale constantelor Programul arrayprt este prezentat în Lista B Codul nu este comentat deoarece presupunem că până acum cititorul este deja destul de familiarizat cu setul de instrucțiuni În linia , adresa stivei goale este plasată în registrul indicatorului de bază - aceasta oferă posibilitatea de a șterge stiva prin copierea pointerului de bază la pointerul stivei, ceea ce se face în linia În exemplul anterior (linii - ), am luat în considerare deja situația calculării și introducerii în teanc de argumente înainte de apel Liniile - încarcă registrele în subrutină Exemple Listarea B , Programul arrayprt înainte de depanare # nclude " /syscalnr h" ! SECT TEXT vecpstrt: ! ! MOV BP SP PUSH veci MOV CX,frmatstr-vecl SHR CX PUSH CX CALL vecprlnt MOV SP BP PUSHO PUSH EXIT SYS ! ! ! ! ! ! ! ! unsprezece! ! SECT DATE veci: WORD , , , frmatstr: ASCIZ "£s" ! ! ! frmatkop: ! ASCIZ "Matricea conține " frmatint: ASCIZ " £d" ! ! SECT TEXT vecprlnt: ! ! PUSH BP MOV BP SP MOV CX, (BP) MOV BX, (BP) MOV SI PUSH frmatkop PUSH frmatstr PUSH PRINTF SYS MOV - (BP),frmatint : MOV DI,(BX)(SI) MOV - (BP),DI SYS INC SI LOOP b PUSH '\n' PUSH PUTCHAR SYS MOV SP BP RET ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! Liniile - ale codului arată cum să tipăriți un șir de caractere, iar liniile - apelează apelul de sistem printf pe o valoare întreagă Adresa unui șir de caractere este împinsă în stivă la linia , iar la linia o valoare întreagă este împinsă în stivă În ambele cazuri, adresa șirului de format este primul argument al comenzii PRINTF Liniile - scot un singur caracter folosind apelul de sistem putchar Acum să încercăm să asamblam și să rulăm programul Pentru a face acest lucru, introduceți comanda as arrayprt s Anexa B Programare în limbaj de asamblare Acest lucru are ca rezultat un mesaj de eroare de operand pe linia din arrayprt s Acest fișier este generat de asamblator prin concatenarea fișierelor include cu fișierul sursă; este fișierul rezultat care este procesat de asamblator Mesajul de eroare se referă la linia a acestui fișier îmbinat Examinarea liniei a fișierului arrayprt s nu va da nimic - numerotarea liniei din cele două fișiere nu se potrivește din cauza includerii liniilor de fișier antet în fișierul arrayprt S Linia din arrayprt s corespunde liniei din arrayprt s deoarece fișierul antet inclus syscalnr h conține de linii Pe UNIX, puteți căuta linia în arrayprt s tastând head - arrayprt s Această comandă tipărește primele de linii ale fișierului combinat În consecință, eroarea trebuie căutată în linia de jos a listării Un efect similar poate fi obținut prin vizualizarea fișierului îmbinat într-un editor de text Astfel, localizam eroarea pe linia a programului original, care contine instructiunea SHR Studiind tabelul B problema este ușor de detectat: am uitat să specificăm valoarea offset-ului Linia după corecție ar trebui să arate astfel: SHR SH, Este important de reținut că eroarea trebuie corectată în fișierul arrayprt s și nu în fișierul arrayprt $ concatenat, deoarece acesta din urmă este actualizat automat de fiecare dată când se rulează asamblatorul Următoarea încercare de a asambla codul sursă, în teorie, ar trebui să reușească Apoi pornim trasorul cu comanda t arrayprt În timpul urmăririi, observăm că rezultatul nu se potrivește cu vectorul din segmentul de date Vectorul conține valorile , , , și , în timp ce secvența de ieșire începe la , , În mod clar, ceva nu este în regulă Pentru a găsi eroarea, trasorul poate fi repornit și poate urmări starea mașinii pas cu pas până când apare o valoare incorectă Valorile care trebuie să fie scoase sunt stocate în memorie pe liniile și Linia de ieșire nevalidă este un loc bun pentru a începe să căutați La a doua trecere a buclei, devine observabil că valoarea numerică a SI este impară, ceea ce nu ar trebui să fie prin definiție, deoarece indexarea se face prin cuvinte, nu pe octeți Astfel, problema se află pe linia Valoarea SI din aceasta este incrementată cu unu, în timp ce incrementul corect este Pentru a corecta eroarea, linia trebuie schimbată după cum urmează: ADAUGĂ După corectare, lista de numere afișată nu ridică nicio reclamație Cu toate acestea, ne confruntăm cu o altă eroare După ce apelul la vecprint se termină și returnează o valoare, urmăritorul marchează o eroare în pointerul stivei Soluția evidentă este să verificați dacă valoarea introdusă în stivă atunci când este apelată vecprint este aceeași cu valoarea de deasupra stivei atunci când executați co Exemple RET solicită pe linia După cum se dovedește, nu se potrivesc Deci linia ar trebui înlocuită cu două linii noi: ADAUGĂ SP POP BP Prima comandă elimină cuvinte împinse pe stivă în timpul apelului la vecprint; aceasta accesează valoarea BP stocată pe linia Prin scoaterea acestei valori din stivă, restabilim valoarea registrului BP înainte de apel și obținem adresa corectă de retur Acum programul se iese corect Nu este un secret că depanarea codului de limbaj de asamblare este mai mult o artă decât o știință, dar nu neglijați ajutorul unui trasor, care simplifică foarte mult procesul Procesarea șirurilor de caractere și comenzi cu șir Scopul principal al acestei subsecțiuni este de a arăta mecanismul de gestionare a comenzilor șir repetate Listările B și B prezintă programe simple de procesare a șirurilor de caractere, strngcpy s și reverspr s, aflate în folderul de exemple Lista B- - Copierea unui șir (strngcpy s) SECT TEXT stcstart: ! PUSH mesaje! PUSH meg ! Apelați strngcpy! ADAUGĂ SP ! împinge ! IMPINGAȚI ! SYS! strngpy: ! PUSH CX! IMPINGE DA! IMPINGERE DE ! PUSH BP! MOV BP SP ! MOV AX O ! MOV OF, (BP) ! MOV CX - ! REPNZ SCASB! NEG CX! DECCX! MOV SI IO(BP) ! MOV OF, (BP) ! IMPINGERE DE ! REP MOVSB! Apelați strlngpr! MOV SP BP ! POP BP! POP OF ! POP DA! POPCX! RET ! Anexa B Programare în limbaj de asamblare SECT DATE ! mesgl: ASCIZ "Aruncă o privire\n" ! mesg : ASCIZ "qrstXn" ! SECT BSS Lista B - Ieșirea șirurilor de caractere înapoi (reverspr s) # nclude " /syscalnr h" ! începe: MOV Dl str ! IMPINGE SEORUL! MOV BP SP ! PUSH -PUTCHAR ! MOVBAL 'Xn' ! MOV CX -l ! REPNZ SCASB! NEGCX ! STD! DECCX ! unsprezece SUB DI, ! MOV SI,DI ! : LODSB! MOV (BP) AX ! SYS ! BUCLA b ! MOVB (BP),'\n' ! SYS ! IMPINGE O! IMPINGAȚI EXIT! SYS ! SECT DATE ! str: ASCIZ "invers\n" ! Lista B arată programul de copiere a șirurilor Apelează subrutina stringpr, care poate fi găsită și într-un fișier separat stringpr s (acest fișier nu este listat în aplicația noastră) Pentru a asambla un program care conține subrutine în fișiere separate, toate fișierele sursă trebuie specificate în comanda as , începând cu programul principal, care determină numele fișierelor executabile și auxiliare De exemplu, pentru a asambla programul prezentat în listarea B , introduceți comanda as strngcpy s stringpr s Programul din Lista B scoate șiruri de caractere în ordine inversă Ne vom uita pe rând la ambele programe În Lista B , liniile de cod sunt numerotate, începând cu prima etichetă Programul principal (liniile - ) începe prin apelarea subrutinei strngcpy cu două argumente: șirul sursă mesg și șirul țintă mesgl; subprogramul copiază conținutul primului în al doilea Acum să aruncăm o privire mai atentă la subrutina strngcpy care începe pe linia a codului Se așteaptă ca adresele bufferului țintă și ale șirului sursă să fie împinse în stivă chiar înainte de a fi apelată În rândurile - , registrele implicate sunt salvate prin împingerea valorilor lor pe stivă; mai târziu, în liniile - , se presupune că vor fi restaurate În linia , valorile SP și BP sunt copiate prin metoda standard După aceea, argumentele pot fi încărcate în VR În linia , stiva este șters în modul cu care suntem deja familiarizați - valoarea BP este copiată în SP Exemple Locația centrală a subrutinei este instrucțiunea REP MOVSB, situată pe linia a codului Instrucțiunea MOVSB mută octetul indicat de registrul SI la adresa de memorie specificată de registrul DL După aceea, conținutul ambelor registre este mărit cu unul Instrucțiunea REP formează un ciclu în care este executată instrucțiunea MOVSB; după mutarea fiecărui octet, scade valoarea lui CX cu Bucla se termină când CX ajunge la zero Înainte de executarea REP MOVSB trebuie pregătite registrele, ceea ce se face în rândurile - Indicele sursă, SI, este copiat din argument pe stiva de pe linia ; indicele de destinație, DI, este definit pe linia Obținerea valorii CX este ceva mai dificilă Rețineți că sfârșitul unui șir de caractere este indicat de un octet nul Instrucțiunea MOVSB nu afectează starea steagului zero, spre deosebire de instrucțiunea SCASB (byte string scan) Acesta din urmă compară valoarea indicată de DI cu valoarea AL și crește DI din mers La fel ca MOVSB, este una dintre comenzile repetitive Linia șterge registrele AX și A L, linia scoate un indicator către DI din stivă, iar linia inițializează registrul CX la - Linia conține instrucțiunea REPNZ SCASB, care efectuează o operație de comparare în contextul unei bucle și, dacă este egală, setează steag-ul zero Cu fiecare trecere a buclei, CX este decrementat, iar când steag-ul zero este setat, bucla se oprește - instrucțiunea REPNZ verifică atât steag-ul zero, cât și CX Numărul de treceri de buclă cu instrucțiunea MOVSB este astfel definit ca diferența dintre valoarea curentă CX și valoarea anterioară - (liniile - ) Folosirea a două comenzi repetate nu este foarte elegantă, dar acesta este prețul unei decizii de proiectare bazată pe principiul independenței codurilor de condiție față de comenzile de mutare Când sunt executate bucle, registrele de index sunt incrementate, iar în acest scop indicatorul de direcție trebuie șters Pe liniile și ale codului, șirul de caractere copiat este scos folosind subrutina stringpr găsită în folderul exemple Este destul de simplu, așa că nu vom discuta aici În programul de ieșire șir de caractere prezentat în Lista B , rândul al codului conține toate numerele standard de apel de sistem Pe linia , o valoare inactivă este împinsă pe stivă, iar pe linia , indicatorul de bază (BP) începe să indice vârful curent al stivei Acest program scoate caracterele ASCII pe rând, astfel încât valoarea numerică PUTCHAR este împinsă în stivă Rețineți că BP indică simbolul care ar trebui să fie afișat în timpul apelului SYS Rândurile , și pregătesc registrele DI, AL și CX pentru execuția instrucțiunii SCASB repetate Registrul de contor și indexul țintă sunt încărcate în același mod ca în programul de copiere a liniilor, cu excepția faptului că un caracter newline este plasat în registrul AL în loc de zero Astfel, instrucțiunea SCASB compară valorile caracterelor șirului str cu \n, nu zero, și setează bitul zero dacă se potrivește Instrucțiunea REP SCASB incrementează registrul DI astfel încât, după o potrivire, indexul țintă indică caracterul nul care urmează noului caracter Anexa B Programare în limbaj de asamblare linii Linia crește DI cu ; ca urmare, acest registru indică ultima literă a cuvântului Dacă șirul de caractere este scanat în ordine inversă și este afișat caracter cu caracter, atunci sarcina noastră este rezolvată; într-un astfel de caz, indicatorul de direcție de pe linia este resetat și registrele de index din instrucțiunile șirului sunt ajustate înapoi Acum comanda LODSB de pe linia copiază caracterul în AL, iar pe linia caracterul este împins pe stiva de lângă PUTCHAR, permițând comenzii SYS să-l afișeze Comenzile de pe liniile și scot o linie nouă, iar programul este în mod tradițional terminat prin apelarea EXIT Versiunea actuală a programului, totuși, conține o eroare Acesta poate fi găsit prin urmărirea pas cu pas Comanda /str plasează șirul str în câmpul de date al trasorului Deoarece valoarea numerică a adresei datelor este cunoscută, ne putem da seama cum se schimbă valorile din registrele de index în raport cu poziția șirului de caractere Eroarea, însă, este descoperită numai după apăsarea repetă a tastei de întoarcere a căruciorului Comenzile de urmărire ajută la reducerea timpului de localizare a erorilor Rulați programul de urmărire și introduceți comanda , care ne va muta la mijlocul buclei Apoi, utilizați comanda b pentru a seta un punct de întrerupere pe linia Prin crearea a două linii noi, vom vedea că ultima literă "e" este afișată în câmpul de ieșire Prin rularea comenzii r, vom face ca programul de urmărire să ruleze până la următorul punct de control sau până la încheierea procesului Astfel, rulând comanda r în secvență, puteți vedea toate literele până ajungem la soluția problemei Din acest moment, programul de urmărire poate fi comutat într-un mod pas cu pas și poate analiza ce se întâmplă la executarea celor mai importante comenzi De asemenea, putem seta un punct de întrerupere suplimentar pe o anumită linie de cod, dar acest lucru trebuie să țină cont de includerea fișierului syscalnr h, ceea ce duce la o schimbare a numerelor de linii ale codului cu Prin urmare, pentru a seta un punct de întrerupere pe, de exemplu, linia , trebuie să introducem comanda b Cu toate acestea, este mai bine să abandonați acest mod neîndemânatic în favoarea setării etichetei globale a începutului pe linia înainte de comanda situată în ea - atunci punctul de întrerupere din linia de cod dorită poate fi setat cu comanda /start+ b În plus, acest mod de a seta un punct de întrerupere vă permite să ignorați dimensiunea fișierului inclus Tabele de expediere Unele limbaje de programare au instrucțiuni select care vă permit să selectați una dintre mai multe opțiuni posibile în funcție de valoarea numerică a unei variabile Acest tip de ramificare multivariată este uneori utilă în programele în limbaj de asamblare Luați, de exemplu, un set de rutine de apeluri de sistem incluse într-un dispozitiv de captare a excepțiilor SYS Exemplu de programare multivariată Exemple Ramificarea antenei în limbajul de asamblare este prezentată în codul jumptbLs din Listarea B Listarea B - Implementarea ramificării multivariate cu un tabel expediere # nclude " /syscalnr,h" ! SECT TEXT ! jumpstrt: ! PUSH strt! MOV BP SP ! PUSH -PRINTF ! SYS! PUSH -GETCHAR ! : SYS! CMP AX ! JL f! unsprezece CMPB AL ' ' ! JL b! CMPB AL ' ' ! JLE f ! MOVB AL ' '+l ! : MOV BX AX ! SI BX OXf ! SAL BX l ! Apelați tbl(BX) ! JMP b! : APĂSĂ ! IMPINGA-EXIT! SYS ! rutO: MOV AX mesO ! JMP f! routl: MOV AX mesl ! JMP f! ruta : MOV AX mes ! JMP f! rout : MOV AX, mes ! JMP f! rout : MOV AX, mes ! JMP f! rout : MOV AX, mes ! JMP f! rout : MOV AX mes ! JMP f! ruta : MOV AX,mes ! JMP f! ruta : MOV AX,mes ! JMP f! erut: MOV AX ernes ! : IMPINGE SEORUL ! PUSH -PRINTF ! SYS! ADAUGĂ SP ! RET! SECT DATE ! tbl: WORD routO routl rout rout ,rout ,rout , rout ,rout rout rout ,erout ! mesO: ASCIZ "Acesta este un zeroAn" ! mesl: ASCIZ "Ce zici de unul \n" ! Anexa B Programare în limbaj de asamblare mes : ASCIZ "Ai cerut un doiAn" ! mes : ASCIZ "Dlglt era un treiAn" ! mes : ASCIZ "Ai tastat un fourAn" ! mes : ASCIZ "Ai preferat un flveAn" ! mes : ASCIZ "A fost întâlnit un slxAn" ! mes : ASCIZ "Acesta este numărul șapteAn" ! mes : ASCIZ "Acest dlglt nu este acceptat ca An octal" ! emes: ASCIZ "Asta nu e un dlglt Încearcă agalnAn" ! strt: ASCIZ "Type an octal dlglt with a return Stop on the end of file An"! Programul începe prin a scoate un șir de caractere a cărui etichetă (strt) solicită utilizatorului să introducă o cifră octală (liniile - ale codului) Un caracter este apoi citit din fișierul de intrare standard (liniile și ) Dacă AX este mai mic de , programul interpretează acest lucru ca un marcator de sfârșit de fișier, trece la eticheta pe linia și iese cu codul de stare Dacă caracterul introdus nu este un marcator de sfârșit de fișier, caracterul introdus în registrul AL este examinat Orice caracter mai mic decât cifra este considerat un delimitator și este ignorat la introducerea liniei de cod ; după care se extrage următorul caracter Orice caracter mai mare de este considerat nevalid Pe linia , este convertit în caracterul ASCII două puncte, care vine imediat după în secvența de caractere ASCII Astfel, pe linia , registrul AX conține o valoare între și două puncte Această valoare este copiată în registrul BX Pe linia , comanda AND maschează toți biții, cu excepția celor mai puțin semnificativi, lăsând un număr între și (deoarece codul ASCII x corespunde cu zero) Deoarece vom indexa cuvintele din tabel, nu octeții, valoarea BX este înmulțită cu prin deplasarea la stânga în rândul Linia conține comanda de apel Adresa reală este determinată prin adăugarea valorii BX la valoarea numerică a etichetei tbl, iar conținutul acestei adrese combinate este încărcat în contorul de programe al computerului Programul selectează una dintre cele zece subrutine, în funcție de caracterul pe care îl preia din intrarea standard Fiecare dintre aceste subrutine plasează adresa unui anumit mesaj pe stivă și apoi trece la apelul comun al rutinei de sistem PRINTF pentru toți Pentru a înțelege ce se întâmplă, trebuie avut în vedere că instrucțiunile JMP și CALL încarcă o anumită adresă a unui segment de text în registrul PC-ului Această adresă este un număr binar, iar în timpul asamblarii, toate adresele sunt înlocuite cu valorile binare corespunzătoare Valorile binare, la rândul lor, ajută la inițializarea matricei în segmentul de date, ceea ce se face pe linia Astfel, matricea care începe la eticheta tbl conține adresele de pornire ale rutinelor routO, routl, rout etc , doi octeți pentru fiecare fiecare Prezența adreselor de octeți explică necesitatea unei deplasări de bit făcută în linia Tabelele de acest tip sunt adesea numite tabele de expediere Mecanismul de funcționare a unor astfel de programe este demonstrat de subrutina erout (liniile - din cod) Se ocupă de numere care sunt în afara intervalului Mai întâi, linia împinge adresa mesajului (în AX) în stivă Numărul apelului de sistem PRINTF este apoi împins în stivă Apoi, apelul de sistem este executat, stiva este șters și programul revine Celelalte zece rutine - de la routeO la route - încarcă adresele mesajelor lor Exemple la registrul AX, apoi mergeți la a doua linie de erupție, tipăriți mesajele și terminați subrutina O modalitate de a adapta un program pentru a trimite tabele este de a-l modifica astfel încât să se formeze un mesaj semnificativ din caracterele introduse De exemplu, toate caracterele, altele decât cifrele octale, pot constitui un mesaj de eroare Acces la fișiere tamponat și aleatoriu Programul InFilBuf s prezentat în Lista B este un exemplu de I/O de fișier arbitrar Permite unui fișier să fie compus dintr-un număr arbitrar de șiruri de caractere, fiecare dintre ele potențial diferit ca lungime de celelalte Acest program citește mai întâi fișierul și construiește un tabel în care intrarea n reflectă poziția începutului liniei n din fișier Puteți apoi să căutați un anumit șir de caractere, să găsiți o intrare pentru acesta în tabel și să îl citiți folosind apelurile de sistem de căutare și citire Numele fișierului de intrare standard este specificat pe prima linie de intrare Programul constă din mai multe fragmente de cod relativ independente care pot fi adaptate în alte scopuri Listarea B Un program care implementează accesul în buffer și aleatoriu la un fișier # psijude " /syscalnr h" ! bufslz= SECT TEXT ! infbufst: ! MOV BP SP ! MOV Dl llnein! PUSH -GETCHAR ! : SYS! CMPBAL 'Xn' ! JL f! J E Dacă! unsprezece STOSB! JMP b! : APĂSĂ ! PUSH llneln! PUSH OPEN ! SYS! CMP AX O ! JL f! MOV (fildeș),AX ! MOV SI, nh+ ! MOV BX O ! : CALL fi buf ! CMP CX, ! JLE f ! : MOVBAL 'Xn' ! REPNE SCASB! JNE b! INC (număr) ! MOV AX BX ! treizeci Anexa B Programare în limbaj de asamblare SUB AH, SH! XCHG SI,DI ! STOS! XCHG SI,DI ! CMP CX, ! JNE b! JMP b! : MOV SP BP ! PUSH llnein! PUSH mesaj! PUSH PRINTF! SYS ! IMPINGA IESIREA! IMPINGA IESIREA! SYS ! : Apelați getnum ! CMP AX, ! JLE f ! MOV BX (curlin) ! CMP BX, ! JLE f ! CMP BX, (număr) ! JG f ! SHL BX, ! MOV AX, linh- (BX) ! MOV CX linh(BX) ! împinge ! împinge ! împinge toporul! PUSH (fildeș) ! IMPINGAȚI LSEEK! SYS ! SUB CX AX ! PUSH CX! PUSH buf ! PUSH (fildeș) ! PUSH CITEȘTE! SYS ! ADAUGĂ SP, ! IMPINGAȚI ! PUSH SCRIE! SYS ! ADAUGĂ SP ! JMP b! : PUSH scanerr! PUSH PRINTF! SYS ! ADAUGĂ SP, ! JMP b! : IMPINGAȚI ! IMPINGA IESIREA! SYS ! fillbuf: ! PUSH bufsiz! PUSH buf ! PUSH (fildeș) ! PUSH CITEȘTE! SYS ! ADAUGĂ SP, ! Примеры MOV CX AX ! ADAUGĂ BX CX! MUTAȚI, buf! RET ! getnum : ! MUTAȚI, Inein ! IMPINGA GETCHAR! : SYS! CMPB AL, "\n" ! JL b ! JE Dacă ! STOSB ! JMP b! : MOVB(THE),' ' ! PUSH curling! PUSH numărul! Împingeți linia! PUSH SSCANF! SYS ! ADAUGĂ SP, ! RET ! SECT DATE ! gresita :! ASCIZ "Deschide fa ed\n" ! numfmt: ASCIZ ' d" ! scanerr: ! ASCIZ "Туре a numberAn" ! ALIGN ! SECT BSS ! linein: SPAȚIU ! fildeș: SPACE ! llnh: SPAȚIU ! curlin: SPACE ! buf: SPACE bufslz+ ! count: SPACE ! Primele cinci linii de cod definesc numerele de apel de sistem și dimensiunea bufferului și setează indicatorul de bază în partea de sus a stivei, ca de obicei Rândurile - citesc numele fișierului de la intrarea standard și îl stochează pe un șir de caractere etichetat linein Dacă numele fișierului nu este închis de o linie nouă, este afișat un mesaj de eroare și procesul se termină cu o stare diferită de zero Toate aceste acțiuni sunt reflectate în rândurile - Rețineți că adresa numelui fișierului este împinsă în stiva pe linia , iar adresa mesajului de eroare este împinsă pe linia Mesajul de eroare în sine (reprezentat pe linia FROM) este o solicitare PRINTF pentru șirul $s Tot aici este introdus și conținutul linein În cazul copierii cu succes a numelui fișierului, acesta este deschis în rândurile - Dacă apelul deschis eșuează, valoarea returnată devine negativă și sare la eticheta pe linia pentru a afișa mesajul de eroare Acest ghid va fi necesar la apelurile ulterioare de citire și căutare Anexa B Programare în limbaj de asamblare Apoi, fișierul este citit în blocuri de octeți, fiecare dintre acestea fiind stocat în buffer-ul De fapt, doi octeți mai mult decât cantitatea necesară ( octeți) sunt alocați pentru buffer, dar acest lucru se face doar pentru a arăta cum o constantă simbolică și un număr întreg pot fi plasate într-o expresie (linia ) În mod similar, în linia , adresa următorului element al matricei linh este încărcată în registrul SI, ca urmare, un cuvânt de mașină cu valoare zero rămâne în partea de jos a matricei Registrul BX primește adresa de fișier a primului caracter necitit din fișier, ceea ce înseamnă că este inițializat la zero pe linia înainte ca tamponul să fie prima umplut Subrutina fi buf, situată în liniile - , este responsabilă pentru umplerea bufferului După ce argumentele de citit sunt introduse în stivă, se face o cerere de apel de sistem care plasează numărul de caractere citite efectiv în registrul AX Acest număr este copiat în CX, iar ulterior valoarea acestui registru poate fi folosită pentru a afla numărul de caractere rămase în buffer Poziția fișierului primului caracter necitit este stocată în registrul BX, iar pe linia valoarea CX este adăugată la valoarea BX Linia plasează partea de jos a tamponului în DI; pregătindu-se astfel să scaneze tamponul pentru următorul caracter newline După revenirea fiii buf, linia verifică dacă au fost citite de fapt vreun caracter Dacă răspunsul este nu, bucla de citire tamponată trece la a doua parte a programului de pe linia După aceea, începe navigarea în buffer Caracterul \n este încărcat în registrul AL de pe linia , iar pe linia următoare, această valoare este căutată în bucla REP SCASB și comparată cu caracterele din buffer Ieșirea din buclă poate avea loc în două cazuri: când valoarea din registrul CX este zero sau când caracterul căutat este un caracter newline Când steag-ul zero este setat, ultimul caracter scanat este \n, iar poziția în fișier a caracterului curent (situat după linia nouă) este stocată în tabloul Hnh În continuare, contorul este incrementat, iar poziția în fișier este determinată de valoarea lui BX și de numărul de caractere rămase în CX (liniile - ale codului) Liniile - stochează, dar deoarece adresa țintă pentru instrucțiunea STOS nu este registrul SI, ci registrul DI, aceste registre sunt schimbate înainte și după apelarea instrucțiunii STOS În rândurile - se verifică datele rămase în buffer, după care, în funcție de valoarea lui CX, se efectuează o tranziție Ajunși la finalul dosarului avem la dispoziție o listă completă a pozițiilor din dosarul elementelor inițiale ale rândurilor Deoarece matricea linh începe la cuvântul zero, știm că prima linie începe la adresa , următoarea linie este la poziția linh + și așa mai departe Mărimea unui șir n poate fi calculată scăzând adresa de pornire a șirului n de la adresa de pornire a șirului n + Restul programului citește numărul șirului de caractere, trece acel șir în buffer și apoi îl imprimă cu apelul de scriere Toate datele necesare pentru a efectua aceste operații se află în matricea linh, unde fiecare a n-a intrare conține poziția de pornire a liniei n din fișier Dacă numărul șirului de caractere solicitat este zero sau în afara intervalului, programul se încheie prin sărirea la eticheta Această parte a programului începe cu un apel către subrutina getnum (linia a codului) Citește un șir de caractere de la intrarea standard și stochează Întrebări și sarcini în tamponul ipeip (liniile - din cod) În continuare, apelul SSCANF este pregătit Având în vedere ordinea inversă a argumentelor, adresa buffer-ului curii n este împinsă pe stivă, unde poate fi plasată o valoare întreagă, apoi adresa șirului de format pentru reprezentarea întregului numfmt și în final adresa bufferului Ipein, care conține numărul în reprezentare zecimală Dacă este posibil, rutina sistemului SSCANF plasează o valoare binară în curii În caz de eroare, returnează valoarea zero AX Verificarea valorii returnate se face pe linia ; în caz de eroare, programul generează un mesaj de eroare prin indicatorul Dacă subrutina getnum returnează o valoare întreagă validă în curii, aceasta este mai întâi copiată în BX În continuare, această valoare este verificată dacă aparține intervalului valid (liniile - din cod) Dacă numărul liniei se află în afara acestui interval, are loc ieșirea (EXIT) Apoi, trebuie să determinați poziția finală a acestei linii în fișier și numărul de fișiere care trebuie citite; în acest scop, valoarea BX este înmulțită cu prin deplasarea la stânga (SHL) Pe linia , poziția șirului de caractere curent din fișier este copiată în registrul AX Poziția următorului șir de caractere este apoi plasată în registrul CX, iar numărul de octeți din șirul curent este calculat din aceasta Pentru a citi aleatoriu date dintr-un fișier, se folosește apelul de căutare ; setează offset-ul la octetul care ar trebui să fie citit în continuare Căutarea subrutinei este executată relativ la începutul fișierului și, prin urmare, pe linia , un argument nul este împins în stivă Următorul argument este offset-ul din fișier Prin definiție, acest argument este un întreg lung ( de biți), astfel încât cuvântul nul este împins mai întâi în stivă, urmat de valoarea lui AX (liniile și ale codului); aceasta formează o valoare întreagă de de biți Apoi, la linia , descriptorul de fișier și codul LSEEK sunt împinse în stivă și apelul este efectuat Valoarea returnată a lui LSEEK specifică poziția curentă în fișier și poate fi găsită în combinația de registru DX: AX Dacă numărul se încadrează într-un cuvânt de mașină (și dimensiunea fișierului nu depășește de octeți, nu poate fi altfel), adresa este plasată în AX; prin urmare, dacă scădem valoarea acestui registru din CX (linia ), obținem numărul de octeți care trebuie citiți pentru a pune linia în buffer Orice altceva este foarte simplu Liniile - citesc o linie dintr-un fișier și apoi utilizați descriptorul de fișier de pe liniile - pentru a-l scrie la ieșirea standard Rețineți că, după curățarea parțială a stivei, care are loc pe linia , valorile contorului și buffer-ului rămân pe stivă În cele din urmă, pe linia , indicatorul stivei este complet resetat, urmat de un salt înapoi la eticheta și un alt apel la getnum Întrebări și sarcini Care sunt valorile registrelor AH și AL după executarea instrucțiunii MOV AX, ? Valoarea registrului CS este Care este intervalul de adrese de memorie absolută în acest segment de cod? Anexa B Programare în limbaj de asamblare Care este adresa maximă de memorie pe care o poate accesa Să presupunem că CS = , DS = și IP = ) Care este adresa absolută a următoarei comenzi? ) Ce cuvânt de memorie este încărcat în registrul AX la executarea instrucțiunii MOV AX, ( )? Subrutina cu trei argumente întregi este apelată conform secvenței de apelare descrisă în această anexă - programul de apelare împinge argumentele în ordine inversă pe stivă și apoi execută instrucțiunea CALL Programul apelat salvează apoi valoarea anterioară a BP și introduce o nouă valoare care indică cea veche Apoi, indicatorul stivei este incrementat negativ; alocând astfel spațiu pentru plasarea variabilelor locale Având în vedere această secvență, denumește instrucțiunea necesară pentru a muta primul argument în registrul AX În fig ÎN operandul este expresia de - hw Această valoare exprimă diferența dintre cele două etichete Există o situație în care de + hw ar putea fi operandul real? Justificati raspunsul Scrieți codul în limbaj de asamblare pentru a evalua următoarea expresie: x = a + b + O anumită funcție C este numită după cum urmează: bara de picior(x,y); Scrieți codul limbajului de asamblare pentru a efectua acest apel Scrieți un program în limbaj de asamblare care ia ca intrare o expresie constând dintr-un număr întreg, un operator și un alt întreg și oferă valorile expresiilor respective ca ieșire Operatori +, -, ? Și / MULȚUMIRI - Asamblatorul la care ne referim în această aplicație face parte din Amsterdam Compiler Kit Versiunea completă a acestui set poate fi găsită la www cs vu nl/ask Suntem recunoscători oamenilor implicați în dezvoltarea sa originală: Johan Stevenson, Hans Schaminee și Hans de Vries Suntem profund datori lui Cyril Jacobs, care, în timp ce întreținea acest pachet software, l-a adaptat de mai multe ori la cererea noastră pentru uz educațional, și lui Elth Ogston, care a citit manuscrisul și a verificat exemplele și sarcinile În plus, vrem să mulțumim lui Robert van Renesse și lan-Mark Wams, dezvoltatori de trasoare pentru PDP- și, respectiv, Motorola Multe dintre ideile lor au fost luate în considerare la dezvoltarea trasorului nostru Desigur, cele mai calde cuvinte merită toți asistenții și operatorii noștri de sistem, care ne-au ajutat în predarea limbilor de asamblare de mulți ani Lista de termeni Termen folosit în carte Configurare automată autonom (informații) Registrul adreselor de memorie Așteptare activă Codul American Standard pentru Schimbul de Informații Aritmetică cu saturație Unitate logică aritmetică (ALU) Arhitectura set de instrucțiuni Linie digitală de abonat asimetrică Sistem I/O de bază reteaua de bariere Biblioteca de linkuri dinamice Otrăvire termenul original Plug and Play (PnP) deconectat Registrul de adrese de memorie (MAR) Ocupat în așteptare Codul standard american pentru schimbul de informații (ASCII) Aritmetică saturată Unitate logică aritmetică (ALU) Arhitectura set de instrucțiuni (ISA) DSL asimetric (ADSL) Sistem de intrare și ieșire de bază (BIOS) Rețele de bariere Biblioteca de linkuri dinamice (DLL) Otrăvire Bloc de preluare a comenzii Unitate de preluare a instrucțiunilor (IFU) Bloc cu virgulă flotantă Unitate în virgulă flotantă (FPU) Bloc cu caracterul inițial Bloc început prin simbol (BSS) Bloc de control Unitatea de comandă Bloc aritmetic întreg Buffer de conversie rapidă Buffer obiect de tranziție Buffer de reordonare a comenzii Buffer de urmărire a funcției de tranziție Transformați memoria tampon de stocare Registrul tampon de memorie Modul rapid de pagină Intrare ieșire I/O mapat cu memorie Procesor vectorial Partea de sus a stivei Interacțiunea componentelor virtuale Comunicarea între procese Interacțiunea componentelor periferice Mașină virtuală Java Unitate întreagă (UI) Traducere Lookaside Buffer (TLB) Branch Target Buffer (BTB) Recomandă tampon (ROB) Urmăriți BTB Buffer de stocare a traducerii (TSB) Registrul tampon de memorie (MBR) Modul rapid pagină (FPM) Intrare/Ieșire (L/O) Hartă în memorie / Procesor vectorial Partea de sus a stivei (TOS) Virtual Component Interconnect (VCI) InterProcess Communication (IPC) Peripheral Component Interconnect (PCI) Java Virtual Machine (JVM) Lista de termeni Termen folosit în carte Termen original Mașină virtuală Java pentru numere întregi Mașină virtuală Java (IJVM) Tăiere virtuală prin rutare Fibră multithreading pe cip Latență Procesare de intrare Pagina angajată Pagina de cerere Procesare de ieșire Calcularea cu instrucțiuni paralele explicit (EPIC) Dischetă cu arhitectură Harvard Bibliotecă Hyperthreading Host Master File Table Mașter File Table (MFT) Wide Area Network (WAN) Tabel global de descriptori (GDT) Interfață grafică utilizator (GUI) Twin Descriptor de securitate Descriptor de fișier Disc RAM dinamic Disc RAM dinamic (DRAM) Cache Only Memory Access (COMA) Duplicare resurse Partajare partiționată a resurselor CD-Recordable (CD-R) Scrie după scriere (WAW) Scrie după citire (război) Scrieți alocarea Solicitare întrerupere (IR) Pagina rezervată Furtul ciclului Încuietoare Încuietoare Parte semnificativă a numărului Significand Apăsare vampir Lista de termeni Termen folosit în carte Termen original ID de securitate Matrice redundantă de discuri ieftine (independente) (RAID) Index sursă Index destinație Index Descriptor Institutul de ingineri electrici și electronici Circuit integrat (IC) sau microcip Interfață pentru sisteme de calculatoare mici Interfață de mesagerie Interfață portabilă pentru sistem de operare Interfață de memorie Registrul de informații Resecvențiere Execuție Calibrare Harta memoriei Quality of Service Cluster Cluster de stații de lucru Cod de corectare a erorilor Codare cu lungime variabilă a cuvintelor Tabel de codare a culorilor Nod de comutare Stocare de pachete și comutare directă Index sursă (SI) Index destinație (Dl) i-node Institutul de ingineri electrici și electronici (IEEE) Circuite integrate (IC) sau cip Interfață pentru sisteme de calculatoare mici (SCSI) Transfer de mesaje Interfață (MPI) Interfață cu sistem de operare portabil (POSIX) Registrul de date din memorie (MDR) Execuție în afara ordinului Ranging Harta memoriei Calitatea serviciului Cluster Cluster of Workstations (COW) Cod de corectare a erorilor (ECC) Cod de lungime variabilă Aspect culoare Up Table (CLUT) Crosspoint Stocare și redirecționare comutare de pachete Compact Disc (CD) Linker Calculator cu set complet de instrucțiuni Calculator cu set de instrucțiuni reduse Mașină cu stări finite Linker Calculator cu set de instrucțiuni complexe (CISC) Calculator cu set de instrucțiuni redus (RISC) Mașină cu stări finite (FSM) Copiere pe Write Root Hub Digital Equipment Corporation (DEC) Dual Inline Package (DIP) Cache Hit Ratio Cache Miss Ratio Roșu, Verde, Albastru Raport de lovituri Cache Ratio Miss Roșu, Verde, Albastru (RGB) Lista de termeni Termen folosit în carte Termen original Cache de blocuri multithreading cu granulație grosieră Cache de urmărire Adresare bloc logic (LBA) Variabilă locală (LV) Rețea locală (LAN) Tabelul de descriptor local (LDT) Pit Mantissa Token Array Scară, indice, bază (SIB) Procesor matrice Organizația Internațională pentru Standardizare Organizația Internațională pentru Standardizare (ISO) International Open Core Protocol Consortium International Standard (IS) Internet Protocol (IP) Multithreading cu granulație fină Metal-Oxide-Semiconductor (MOS) Microassembler Open Core Protocol-Internațional Partnership (OCP-IP) Internațional Standard (IS) Internet Protocol (IP) Fine -Grained multithreading Metal-Oxide-Semiconductor (MOS) Micro Assembly Language (MAL) Miliard de instrucțiuni pe secundă Milioane de instrucțiuni pe secundă Minislot Miliard de instrucțiuni pe secundă (BIPS) Milioane de instrucțiuni pe secundă (MIPS) Minislot Partajare falsă Comutare în mai multe etape Model de lucrător replicat Modul de memorie în linie dublu (DIMM) Modul de memorie inline unic (SIMM) MultiMedia eXtension (MMX) Multiplexor de acces la linie de abonat digital (DSLAM) Set de instrucțiuni vizuale (VIS) cu multiprocesor bazat pe director Fiabilitate, disponibilitate și service (RAS) Lista de termeni Termen folosit în carte Termen original Scalable Processor ARCitecture (SPARC) Nu este un număr (NaN) Nevalid, partajat, exclusiv, modificat (MESI) Acces neuniform la memorie (NUMA) Fișier imediat Flux de instrucțiuni multiple Flux de date multiple (MIMD) Flux de instrucțiuni multiple Flux de date unic (MISD) Legături implicite Procesor de semnal digital Big Endian Joint Photographic Experts Group Joint Cache Joint Test Automation Working Group Un singur disc scump Flux de instrucțiuni unic cu mai multe fluxuri de date Digital Signal Processor (DSP) Little Endian Joint Photographic Experts Group (JPEG) Cache unificat Joint Test Action Group (JTAG) ) Un singur disc mare și scump (SLED) Un singur flux de instrucțiuni Flux de date multiple (SIMD) Un flux de instrucțiuni cu un flux de date Flux de instrucțiuni unic Flux de date unice (SISD) Cameră reflex cu un singur obiectiv Acces uniform la memorie Memorie cu acces aleatoriu (informații) Memorie cu acces aleatoriu sau Memorie cu acces aleatoriu (RAM) Descriptor Reflex cu obiectiv unic (SLR) Acces uniform la memorie (UMA) Mâner pentru memorie cu acces aleatoriu (RAM) on-line Cel mai potrivit Memorie principală Open Grid Services Architecture (OGSA) Deschideți interfața controlerului gazdă (HCI) Fără acces la memorie la distanță (NORMA) Geantă de activități Interfață de pachete ATA (ATAPI) Stocare imediată a adresei (IAS) Ieșire extinsă de date (EDO) Lista de termeni Termen folosit în carte Termen original Mașină virtuală paralelă (PVM) I/O paralel Primul intrat, primul ieşit Rată dublă a datelor Intrare/ieşire paralelă (PIO) Primul intrat, primul ieşit (FIFO) Rată dublă a datelor (DDR) CD-reinscriptibil reinscriptibil (CD-RW) Comutare bară transversală Ignorare segment Redirecționare de la magazin la încărcare Asistent digital personal (PDA) Land Redenumirea registrului Bitblt Subrutină Tuning Checkerboarding Interconectare completă Amestecare completă Amestecare perfectă Partajarea completă a resurselor Strip Partajare prag de resurse Fork Serial ATA (SATA) Furnizor de servicii de internet (ISP) Compact Disc-Read Only Memory (CD-ROM) Memorie doar pentru citire (ROM) Stream I/O Stream Flux de date Fluxul de instrucțiuni Slot de e-mail pentru Streaming SIMD Extensions (SSE) Preambul Predicat ion Protecția siguranței Interfață de programare a aplicației (API) Memorie de atracție pentru imprimantă Lista de termeni Termen folosit în carte Termen original Slip Field Programmable Gate Array Memoria programabilă numai pentru citire Sistem de procesare a pachetelor și protocolului programabil Thread programabil Thrashing Field Programmable Gate Array (FPGA) ROM programabil (PROM) Protocol/programabil/motor de procesare a pachetelor (PPE) Thread Scanare progresivă Tehnologie avansată (AT) Lățimea de bandă bisecție Staling Protocol de scriere înapoi Protocol de transfer hipertext Protocol de coerență în cache Protocol de scriere înapoi Protocol de transfer de hipertext (HTTP) Protocol de coerență în cache Protocol de control al transmisiei (TCP) Procesor masiv paralel (MPP) Acces direct la memorie (DMA) Big endian Pachet Pachet Identificare prin radiofrecvență Paging Split cache Identificare prin radiofrecvență (RFID) Paging Split cache Distribuție de date Striping Memoria partajată distribuită (DSM) Procesare in retea Memoria intercalată Extended Industry Standard Architecture Extended ISA (EISA) Arhitectură de magistrală extinsă pentru microcontrolere Indicator de instrucțiuni extins Arhitectura magistrală de microcontroler avansat (AMBA) Registrul indicator de instrucțiuni extinse (EIP) Registrul de microinstrucțiuni (MIR) Mod de compatibilitate Integrare la scară foarte mare (VLSI) Very Long Instruction Word (VLIW) Legare gratuită a paginii Segment de legătură Lista de termeni Termen folosit în carte Termen original Server de publicitate contextuală Fermă de servere Dispozitiv de interfață de rețea Rețea rețea de stații de lucru Cuplare strânsă Fermă de servere de reclame Dispozitiv de interfață de rețea (NID) Rețea rețea de stații de lucru (ACUM) Cuplare strânsă Multiprocesor simetric (SMP) cuplat strâns DRAM sincron (SDRAM) Multithreading simultan Fără cache NUMA (NC-NUMA) Cache coerent NUMA (CC- NUMA) Scrie prin Twisted Nematic (TN) Cuplaj liber Loosely coupled (procesoare) Loosely coupled Snooping Cache Snooping Cuvânt de stare program (PSW) Slot de întârziere Serviciul de informare și calcul multiplexat (MULTICS) Offset Lățimea de bandă agregată Salt peste salt Consistență Exces Lățime de bandă agregată Salt peste salt Consistență Circuit integrat specific aplicației (ASIC) Lista gratuită Lista gratuită Timpul mediu dintre erori (MTBF) Referință directă Arhitectură standard industrială (ISA) RAM statică (SRAM) PROM șters (EPROM) Linii per inch Linie cache Acumulator Linii per inch (Ipi) Linie cache Acumulator Lista de termeni Termen folosit în carte Termen original Contor locație instrucțiuni Contor locație instrucțiuni (ILC) Contor program (PC) Contor de microprograme (MPC) Tabelul de bord Volum Cuprins (VTOC) Tabelul de alocare a fișierelor (FAT) Televiziune de înaltă definiție Televiziune de înaltă definiție (HDTV) Arbore gras Tranzistor cu peliculă subțire Puncte pe inch Tranzistor cu peliculă subțire (TFT) Puncte pe inch (dpi) Logica tranzistor-tranzistor (TTL) Logica tranzistor-tranzistor (TTL) Indicator de instrucțiuni flip-flop (IP) Constant Pool Pointer (CPP) Stack Pointer (SP) Indicator de fereastră curent (CWP) Indicator cadru (FP) Mod legal Universal Serial Bus (USB) Transmițător receptor universal asincron (UART) Interfață universală pentru controler gazdă (UHCI) Transmițător receptor asincron universal sincron (USART) Preîncărcarea Port grafic accelerat (AGP) Variabilă de condiție Dispozitive de controler încorporate îmbunătățite Interfață de controler gazdă îmbunătățită Dezintercalarea controlerului de întrerupere programabilă îmbunătățită IDE extins (EIDE) Interfață îmbunătățită a controlerului gazdă (EHCI) Controller de întrerupere programabil avansat (APIC) Deintercalare Dispozitiv I/O Dispozitiv I/O Dispozitiv cuplat cu încărcare (CCD) Dispozitiv cu controler integrat NT Integrated Drive Electronics (IDE) NT File System (NTFS) Sistem de fișiere structurat în jurnal Lista de termeni Termen folosit în carte Termen original Filtru Bayer Memorie flash Fragment de cioburi Biblioteca țintă Unitate centrală de procesare (CPU) Verificare redundanță ciclică (CRC) Linie digitală de abonat (DSL) Digital Video Disc Digital Versatile Disk (DVD) Digital Versatile Disk (DVD) Pinout Pinout Scanare intercalată Citire după scriere (RAW) Citiți, scrieți, executați citiți, scrieți, executați (RWX) Autobuz Sună Gateway Caii gate Calculator experimental cu tranzistori Calculator experimental cu tranzistori (TX- ) Calculator electronic cu variabile discrete (EDVAC) Memorie doar pentru citire reprogramabilă electronic EPROM electronic (EEPROM) Tub cu raze catodice (CRT) Integrator numeric electronic și întrețesere computer (ENIAC) Logica cuplată cu emițător (ECL) Legături explicite Limbajul de descriere a serviciilor web Limbajul de definire a serviciilor web (WSDL) Limbajul de marcare hipertext (HTML) Index alfabetic c , Catamount, , CCD, Codare pe / biți, CC-NUMA, , , CDC , , , , CD-R, , CD-ROM-uri, , CD-ROM XA, adresare, - CD-RW, arhitectură de instrucție, - Celeron, layout, CISC, microarhitectură, - CLUT, set de instrucțiuni, , COLOSS, registre, COMA, , semnale, CoreConnect, totalizator, COW, , tipuri de date, CPP, , formate de comandă, - CRC, , pinout, , CYMK, , D , DDR, DEC, , UN DIMM, ACL, DIP, ADSL, DLL, AGP, , DM A, AMBA, dpi, ARIS, DRAM, Apple, DSLAM, ASCII, DSM, , ASIC, DSP, АТА, STRADA , DVD, E В ECC, BIOS, EDO, BlueGene/L, EDVAC, Blu-Ray, EEPROM, BSS, EIDE, BTB, EISA, , Burroughs B , ENIAC, Алфавитный указатель ENIGMA, EPIC, EPROM, Intel A, Intel A, Intel Pentium, IP, F FAT, FIFO, FMS, FORTRAN, FPGA, FPM, FPU, FSM, IPC, ISA, , , ISP, , ISR , ISR , , UI, J IOAN, G GDT, Globe, Google, GUI, , JTAG, L LAN, Latin- , LBA, LDT, H HDTV, High Sierra, HTML, HTTP, LGA, Linda, model de lucrător replicat, pachet de locuri de muncă, spațiu tuplu, IA- , IA- , - IAS, IBM, IBM , IBM , IBM , IBM , IBM , IBM , , IBM IBM PS/ , IDE, IFU, IJVM, , set de instrucțiuni, stivă, cale de date, ILC, ILLIAC, ILLIAC IV, , i-node, șablon Intel , Linux, IPi, LRU, , LV, , MAL, MAR, MBR, , MDR, MESI, MFT, Mic- , Mic- , Mic- , Mic- , Microsoft, Microsoft XBOX, MIMD, MINIX, MIPS, - MIR, MISD, MMU, Index alfabetic MMX, Motif, Motorola , MPC, MPEG- , MPI, MPP, , MTBF, MULTICS, Pentium , adresare, memorie virtuală, microarhitectură, , , micro-architecture, - mod real, registre, mod procesor virtual , PIO, N NaN, NC-NUMA, NetBurst, , NID, Nintendo GameCube, NORMA, NOW, NTFS, NUM A, , RpP, POSIX PROPE, PM, , , pthread-uri, RVM, R RAID, OCP-IP, OGSA, omega, Omnibus, OPC, Opteron, Orca, operare, spawn, fuzibil, RAM, RAS, RAW, RFID, , RAW, RFID RGB, RISC, , - ROB, ROM, s SCSI, R PC, , PCI, , PCI Express, - antet, strat link, ambalare, pachet, sarcină utilă, strat software, stivă de protocol, control flux, strat fizic, strat, PDA, , PDP- , PDP- , SDRAM, Seastar, Serial ATA, SIB, , SID, SIMD, , SIMM, SISD, SLR, SMP, SO-DIMM, Sony PlayStation , SP, SPARC, , SRAM, SSE, Sun Microsystems, Index alfabetic t WAW, TAT- / , TCP, TFT, TLB, , TLB-miss, TN, TOS, TriMedia, TSB, TX- , WEIZAC, TN, Wind , Win Win API, Win , Windows, Windows , Windows , Windows , Windows ME, și UART, UDB II, UltraSPARC I, UltraSPARC II, UltraSPARC III, adresare, memorie virtuală, UltraSPARC III Cu pipeline, , microarhitectură, UMA, UNICODE, Berry, Solaris, System V, bibliotecă principală, canale, fire de execuție de program, biblioteci țintă, Windows NT, Windows XP Manager I/O, memorie virtuală, cache, obiecte, procese și fire, dispozitiv driver, interfață grafică, sistem executiv, monitor de securitate, subsistem de mediu, servicii de sistem, sistem de fișiere, kernel, XX Windows, HZT, Cheop, UPA, USART, USB, USB , Z Zilog Z , i-conveyor, A canal de abonat, V VAX, , VCI, VIS, VLIW, VTOC, v-pipeline, cale absolută, mod auto-decrement, mod auto-increment, informații offline, inversare aditivă, adresa de memorie, , real, liniar, w WAN, WAR, adresare, , index, registru index, Index alfabetic adresare (continuare) registru index cu offset, instrucțiuni de salt, registru indirect, , imediat, , - implicit, index relativ, direct, registru, registru cu offset, moduri, spațiu de adrese, virtual, fizic, registru de adrese, Aiken Howard, , acumulator, , standby activ, indicator matrice activă, algebră boolean, circuite de relee, algoritm, ALU, , , , canal alfa, legea Amdala, modulație de amplitudine, motor analitic, memorie partajată distribuită hardware, hardware, de arbitru de magistrală, de arbitru de magistrală, argument, aritmetică cu saturație, unitate logică aritmetică, , , , arhitectură, , harvard, încărcare și salvare, computer, superscalar, linie digitală asimetrică de abonat, magistrală asincronă, , asamblator, , , , trecere de secunde, generare cod, asamblare (continuare) etichetă globală, interpret, linking, etichetă locală, mnemonice, , prima trecere, pseudo instrucțiuni, , secțiune BSS, date, text, nume simbolic, tabel de simboluri, puncte, trasoare, directivă de asamblare, program de asamblare , memorie asociativă , , John Atanasov, B baza, sistem I/O de bază, unități de bază, registru de bază, filtru Bayer, octeți prefix, , termen, , tip de date, John Bardeen, Barrier Network, Headless Workstation, Andy Bechtolsheim, Library legături dinamice, importuri, acces multiplu, operațiuni binare, căutare binară, biți, , otrăvire, , prezent 